- 中国のAIラボDeepSeekが推論モデル「DeepSeek-R1」のオープン版をリリース。
- 特定のAIベンチマークでOpenAIのo1と同等以上の性能を示したと主張。
- 6,710億のパラメータを持ち、商用利用可能なMITライセンスで提供。
- 中国のAI規制に準拠する必要があり、特定のトピックへの回答に制限あり。
DeepSeek-R1がo1を上回ると主張
中国のAIラボDeepSeekは、推論モデル「DeepSeek-R1」のオープン版をリリースし、特定のAIベンチマークでOpenAIのo1と同等の性能を発揮すると主張している。
R1はAI開発プラットフォームHugging FaceでMITライセンスの下で公開されており、商用利用に制限なく使用可能だ。DeepSeekによると、R1はAIME、MATH-500、SWE-bench Verifiedのベンチマークでo1を上回る性能を示している。AIMEは他のモデルを使用してモデルの性能を評価し、MATH-500は文章題のコレクション、SWE-bench Verifiedはプログラミングタスクに焦点を当てている。
推論モデルの特徴と性能
推論モデルであるR1は自己事実確認を行い、通常のモデルが陥りやすい落とし穴を回避することができる。推論モデルは一般的な非推論モデルと比較して解決までに数秒から数分長くかかるが、物理学、科学、数学などの分野でより信頼性が高いという利点がある。
技術レポートによると、R1は6,710億のパラメータを持つ。パラメータはモデルの問題解決能力におおよそ対応し、より多くのパラメータを持つモデルは一般的により優れた性能を示す。DeepSeekは15億から700億パラメータの範囲の「蒸留版」R1も公開しており、最小のものはラップトップで実行可能だ。フルサイズのR1はより強力なハードウェアを必要とするが、OpenAIのo1と比べて90-95%安価なAPIを通じて利用できる。
規制と国際的な影響
中国のモデルであるR1は、その応答が「社会主義の核心的価値観を体現する」ことを確認する中国のインターネット規制機関によるベンチマークの対象となっている。例えば、天安門広場や台湾の自治に関する質問には回答しない。
R1のリリースは、Biden政権が中国企業に対するAI技術の輸出規制強化を提案した直後となる。中国企業はすでに先進的なAIチップの購入を制限されているが、新規制が施行されれば、高度なAIシステムの開発に必要な半導体技術とモデルの双方でより厳しい制限に直面することになる。
業界への影響
現在までに、DeepSeek、Alibaba、Moonshot AI傘下のKimiという少なくとも3つの中国のラボが、o1に匹敵すると主張するモデルを開発している。George Mason UniversityのAI研究者Dean Ball氏はXへの投稿で、この傾向は中国のAIラボが「速い追随者」であり続けることを示唆していると指摘した。
That a *second* paper dropped with tons of RL flywheel secrets and *multimodal* o1-style reasoning is not on my bingo card today. Kimi’s (another startup) and DeepSeek’s papers remarkably converged on similar findings:
> No need for complex tree search like MCTS. Just linearize… pic.twitter.com/NrV2WyunC9
— Jim Fan (@DrJimFan) January 20, 2025
引用元:TechCrunch
DeepSeek claims its reasoning model beats OpenAI’s o1 on certain benchmarks