- 中国DeepSeekが最新R1推論AIモデルの学習にGoogleのGeminiファミリーのデータを使用した疑いが浮上
- 開発者らがDeepSeekモデルの出力パターンがGemini 2.5 Proと類似していることを指摘
- OpenAIは以前からDeepSeekによるデータ蒸留の証拠を発見、Microsoftも大量データ流出を検出
- AI企業各社は競合他社によるモデル学習を防ぐためセキュリティ対策を強化中
DeepSeek R1-0528モデルに見つかったGemini類似パターン
先週、中国のAI研究所DeepSeekは、数学とコーディングのベンチマークで優秀な成績を収めるR1推論AIモデルの更新版をリリースした。同社はモデル学習に使用したデータソースを明らかにしていないが、一部のAI研究者は少なくとも一部がGoogleのGemini AIファミリーから来たものと推測している。
AIの「感情知能」評価を作成するメルボルン在住の開発者Sam Paech(サム・ペック)氏は、DeepSeekの最新モデルがGeminiの出力データで学習されたとする証拠を公開したと主張している。R1-0528と呼ばれるDeepSeekのモデルが、GoogleのGemini 2.5 Proが好む単語や表現と類似したものを好む傾向があると、Paech氏はXへの投稿で述べた。
If you’re wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025
これだけでは決定的な証拠ではない。しかし、SpeechMapと呼ばれるAI向け「言論の自由評価」の匿名開発者は、DeepSeekモデルのトレース(モデルが結論に向かって作業する際に生成する「思考」)が「Geminiのトレースのように読める」と指摘した。
DeepSeekの過去の競合モデル学習疑惑
DeepSeekは以前にも競合AIモデルのデータで学習したと非難されている。12月、開発者らはDeepSeekのV3モデルがしばしば自分自身をOpenAIのAI搭載チャットボットプラットフォームであるChatGPTと識別することを観察し、ChatGPTのチャットログで学習された可能性を示唆した。
今年初め、OpenAIはFinancial Timesに対し、DeepSeekが蒸留(より大きく有能なモデルからデータを抽出してAIモデルを学習させる技術)の使用に関連する証拠を発見したと語った。Bloombergによると、OpenAIの密接な協力者かつ投資家であるMicrosoftは、2024年後半にOpenAI開発者アカウントを通じて大量のデータが流出していることを検出した。OpenAIはこれらのアカウントがDeepSeekと関連があると信じている。
蒸留は珍しい手法ではないが、OpenAIの利用規約は顧客が同社のモデル出力を使用して競合AIを構築することを禁じている。
AIスロップ汚染によるデータ識別の困難
明確にしておくと、多くのモデルが自分自身を誤認識し、同じ単語や言い回しに収束する。これは、AI企業が学習データの大部分を調達するオープンウェブが、AIスロップで溢れているためだ。コンテンツファームはAIを使用してクリックベイトを作成し、ボットがRedditやXに氾濫している。
この「汚染」により、学習データセットからAI出力を完全にフィルタリングすることが非常に困難になっている。
それでも、非営利AI研究機関AI2の研究者Nathan Lambert(ネイサン・ランバート)氏のようなAI専門家は、DeepSeekがGoogleのGeminiのデータで学習した可能性を否定していない。
「もし私がDeepSeekだったら、間違いなく最高のAPIモデルから大量の合成データを作成するだろう」とLambert氏はXへの投稿で書いた。「(DeepSeekは)GPUが不足しているが現金は潤沢だ。彼らにとって文字通り効果的により多くの計算資源を得ることになる」
If I was DeepSeek I would definitely create a ton of synthetic data from the best API model out there. Theyre short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question.
— Nathan Lambert (@natolambert) June 3, 2025
AI企業による蒸留防止セキュリティ強化
蒸留を防ぐ取り組みの一環として、AI企業はセキュリティ対策を強化している。
4月、OpenAIは組織が特定の高度なモデルにアクセスするためにID確認プロセスの完了を義務付け始めた。このプロセスでは、OpenAIのAPIがサポートする国の一つから政府発行のIDが必要で、中国はリストに含まれていない。
一方、GoogleはAI Studio開発者プラットフォームで利用可能なモデルが生成するトレースの「要約」を最近開始した。これは競合他社がGeminiのトレースで高性能なライバルモデルを学習することをより困難にする措置だ。Anthropicも5月に「競争上の優位性」を保護する必要性を理由に、自社モデルのトレースの要約を開始すると発表した。
引用元:TechCrunch
DeepSeek may have used Google’s Gemini to train its latest model