- DeepSeekが実験モデル「V3.2-exp」を発表、長文脈処理で推論コストを劇的に削減
- DeepSeek Sparse Attention機能により単純なAPIコールを最大半額に削減、予備テストで確認
- 「lightning indexer」と「fine-grained token selection system」で効率的なトークン選択を実現
- Hugging Faceでオープンウェイトモデルとして公開、GitHub上で学術論文も利用可能
DeepSeek、長文脈処理で推論コスト削減の新モデル発表
DeepSeekの研究者は月曜日、長文脈操作で使用される際に推論コストを劇的に低減するように設計された新しい実験モデル「V3.2-exp」を発表した。DeepSeekはHugging Faceへの投稿でモデルを発表し、GitHub上に関連する学術論文も投稿した。
DeepSeek Sparse Attentionで効率的なコンテキスト処理を実現
新モデルの最も重要な機能は、DeepSeek Sparse Attentionと呼ばれる複雑なシステムである。本質的に、このシステムは「lightning indexer」と呼ばれるモジュールを使用して、コンテキストウィンドウから特定の抜粋を優先順位付けする。その後、「fine-grained token selection system」と呼ばれる別のシステムが、これらの抜粋内から特定のトークンを選択してモジュールの限定されたアテンションウィンドウにロードする。これらを合わせることで、Sparse Attentionモデルは比較的小さなサーバー負荷で長い部分のコンテキスト上で動作できる。
長文脈操作で単純なAPIコールを最大半額に削減
長文脈操作の場合、システムの利点は大きい。DeepSeekによる予備テストでは、単純なAPIコールの価格が長文脈状況で最大半分削減できることがわかった。より堅牢な評価を構築するにはさらなるテストが必要だが、モデルがオープンウェイトでHugging Faceで自由に利用できるため、サードパーティのテストが論文で行われた主張を評価するのに長い時間はかからないだろう。
推論コスト問題への最近のブレークスルーの一環
DeepSeekの新モデルは、推論コストの問題に取り組む最近の一連のブレークスルーの1つである。推論コストとは本質的に、訓練コストとは異なる、事前訓練されたAIモデルを操作するサーバーコストである。DeepSeekの場合、研究者は基本的なトランスフォーマーアーキテクチャをより効率的に動作させる方法を探しており、大幅な改善が可能であることを発見している。
中国拠点のDeepSeek、年初のR1モデルで注目
中国を拠点とするDeepSeekは、AIブームにおいて異例の存在であり、特にAI研究を米国と中国の間の国家主義的闘争と見なす人々にとってそうである。同社は年初、主に強化学習を使用して米国の競合他社よりはるかに低コストで訓練されたR1モデルで波紋を広げた。しかし、一部が予測したように、モデルはAI訓練における全面的な革命を引き起こしておらず、同社はその後数か月間スポットライトから後退している。
米国プロバイダーへの推論コスト削減のヒントに
新しい「スパースアテンション」アプローチは、R1と同じ騒動を引き起こす可能性は低いが、米国のプロバイダーに推論コストを低く抑えるのに役立つ、非常に必要とされるトリックをいくつか教えることができる可能性がある。
引用元: TechCrunch DeepSeek releases ‘sparse attention’ model that cuts API costs in half
https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/