- DeepSeekが軽量版「DeepSeek-R1-0528-Qwen3-8B」をリリース、Alibaba社のQwen3-8Bモデルをベースに開発
- 数学ベンチマークAIME 2025でGoogleのGemini 2.5 Flashを上回り、MicrosoftのPhi 4推論モデルに匹敵する性能
- 40GB-80GB RAM搭載GPU1台で動作可能、フルサイズR1の約12台のGPU要件と比較して大幅な効率化
- 商用利用可能なMITライセンスで提供、LM Studioなど複数プラットフォームでAPI経由利用が可能
DeepSeek-R1-0528-Qwen3-8B軽量版モデルの性能評価
DeepSeekの更新されたR1推論AIモデルが今週AI界隈の注目を集める中、中国のAI研究所は新しいR1のより小型な「蒸留」版であるDeepSeek-R1-0528-Qwen3-8Bもリリースした。DeepSeekは、この軽量版が同等サイズのモデルと比較して特定のベンチマークで優れた性能を示すと主張している。
5月にAlibabaが発表したQwen3-8Bモデルを基盤として構築されたこの小型版更新R1は、困難な数学問題集であるAIME 2025においてGoogleのGemini 2.5 Flashを上回る性能を示した。
DeepSeek-R1-0528-Qwen3-8Bは、別の数学スキルテストであるHMMTにおいても、Microsoftが最近リリースしたPhi 4推論プラスモデルにほぼ匹敵する結果を記録している。
蒸留モデルの計算効率とハードウェア要件
DeepSeek-R1-0528-Qwen3-8Bのような蒸留モデルは、一般的にフルサイズモデルよりも機能が劣る。しかし利点として、計算要求が大幅に少ない。クラウドプラットフォームNodeShiftによると、Qwen3-8Bは40GB-80GBのRAMを搭載したGPU(例:Nvidia H100)1台で動作する。一方、フルサイズの新R1は約12台の80GB GPUが必要である。
この劇的なハードウェア要件の削減により、研究機関や企業は限られたリソースでも高性能な推論モデルを利用できるようになる。特に予算制約のある組織にとって、この軽量版は実用的な選択肢となる。
Alibaba Qwen3-8Bベースの蒸留技術
DeepSeekはDeepSeek-R1-0528-Qwen3-8Bを、更新されたR1によって生成されたテキストを使用してQwen3-8Bをファインチューニングすることで訓練した。AI開発プラットフォームHugging Faceのモデル専用ページで、DeepSeekはDeepSeek-R1-0528-Qwen3-8Bを「推論モデルに関する学術研究と小規模モデルに焦点を当てた産業開発の両方に対応」するものと説明している。
この蒸留プロセスは、大規模モデルの知識と能力を小型モデルに効率的に転移する手法として注目されており、AI分野における重要な技術進歩を示している。
商用利用とAPI提供による普及促進
DeepSeek-R1-0528-Qwen3-8Bは商用利用に制限のない寛容なMITライセンスの下で提供されている。LM Studioを含む複数のホストがすでにAPIを通じてこのモデルを提供しており、開発者コミュニティでの迅速な採用を促進している。
この軽量版の登場により、高性能な推論AI技術がより広範囲の開発者や研究者にアクセス可能となり、AI民主化の重要な一歩を示している。特に計算リソースに制約のある環境での実用的なAI推論タスクにおいて、大きな影響を与えることが期待される。
引用元: TechCrunch
DeepSeek’s distilled new R1 AI model can run on a single GPU