- Google DeepMindがGemini統合の次世代汎用AIエージェント「SIMA 2」の研究プレビューを公開
- 前世代SIMA 1の2倍のパフォーマンスを達成、複雑タスク成功率31%から大幅改善
- 自己改善機能を搭載、人間データなしでAIフィードバックから学習し性能向上
- 汎用ロボットやAGIシステムへの応用を見据え、絵文字による指示にも対応
Google DeepMind、SIMA 2の研究プレビューを公開
Google DeepMindは木曜日、汎用AIエージェントの次世代版であるSIMA 2の研究プレビューを公開した。このエージェントはGoogleの大規模言語モデルGeminiの言語と推論能力を統合し、単に指示に従うだけでなく、環境を理解し相互作用するように進化している。
AlphaFoldを含むDeepMindの多くのプロジェクトと同様に、SIMA 1は数百時間のビデオゲームデータで訓練され、訓練されていないゲームも含めて複数の3Dゲームを人間のようにプレイする方法を学習した。2024年3月に発表されたSIMA 1は、幅広い仮想環境で基本的な指示に従うことができたが、複雑なタスクの完了成功率はわずか31%で、人間の71%と比較して低かった。
SIMA 1から大幅に性能向上
「SIMA 2はSIMA 1から段階的な変化と能力の向上を遂げています」とDeepMindのシニアリサーチサイエンティストであるJoe Marino(ジョー・マリーノ)氏はプレスブリーフィングで述べた。「より汎用的なエージェントです。これまで見たことのない環境で複雑なタスクを完了できます。そして、自己改善エージェントです。実際に自身の経験に基づいて自己改善できるため、より汎用的なロボットやAGIシステム全般への一歩となっています。」
Gemini 2.5 flash-liteモデルで駆動
SIMA 2はGemini 2.5 flash-liteモデルで駆動されており、AGIとは人工汎用知能を指し、DeepMindはこれを、幅広い知的タスクを実行でき、新しいスキルを学習し、さまざまな領域にわたって知識を一般化する能力を持つシステムと定義している。
DeepMindの研究者たちは、いわゆる「具現化エージェント」と協働することが汎用知能にとって極めて重要だと述べている。Marino氏は、具現化エージェントは身体を介して物理的または仮想的な世界と相互作用し、ロボットや人間がそうするように入力を観察し行動を取るのに対し、非具現化エージェントはカレンダーと対話したり、メモを取ったり、コードを実行したりする可能性があると説明した。
常識的な理解と応答が可能に
神経科学のバックグラウンドを持つDeepMindのリサーチサイエンティストであるJane Wang(ジェーン・ワン)氏はTechCrunchに、SIMA 2はゲームプレイをはるかに超えていると語った。
「私たちは実際に何が起こっているかを理解し、ユーザーが何をするよう求めているかを理解し、そして実際にはかなり難しい常識的な方法で応答できることを求めています」とWang氏は述べた。
Geminiを統合することで、SIMA 2は前世代の性能を2倍にし、Geminiの高度な言語と推論能力を訓練を通じて開発された具現化スキルと統合した。
「No Man’s Sky」でのデモと推論能力
Marino氏は「No Man’s Sky」でSIMA 2をデモし、エージェントが周囲の環境(岩だらけの惑星表面)を説明し、遭難ビーコンを認識して相互作用することで次のステップを決定した。SIMA 2はまた、Geminiを使用して内部で推論する。別のゲームで、熟したトマトの色の家まで歩くよう求められたとき、エージェントは「熟したトマトは赤い、したがって赤い家に行くべき」という思考を示し、それを見つけて近づいた。
絵文字による指示にも対応
Gemini搭載であることは、SIMA 2が絵文字に基づいて指示に従うことも意味する。「🪓🌲で指示すれば、木を切り倒しに行きます」とMarino氏は述べた。
Marino氏はまた、SIMA 2がDeepMindのワールドモデルであるGenieによって生成された新しいフォトリアリスティックな世界をナビゲートし、ベンチ、木、蝶などのオブジェクトを正しく識別して相互作用する方法を実演した。
人間データなしでの自己改善機能
Geminiはまた、多くの人間データなしでの自己改善を可能にするとMarino氏は付け加えた。SIMA 1が完全に人間のゲームプレイで訓練されたのに対し、SIMA 2はそれをベースラインとして使用して強力な初期モデルを提供する。チームがエージェントを新しい環境に配置すると、別のGeminiモデルに新しいタスクを作成するよう求め、別の報酬モデルがエージェントの試みをスコアリングする。これらの自己生成された経験を訓練データとして使用することで、エージェントは自身の過ちから学習し、徐々にパフォーマンスを向上させ、本質的に人間がそうするように試行錯誤を通じて新しい行動を自ら教えるが、人間ではなくAIベースのフィードバックによって導かれる。
汎用ロボットへの応用を展望
DeepMindはSIMA 2を、より汎用的なロボットを解き放つための一歩と見ている。
「ロボットのような実世界でタスクを実行するためにシステムが何をする必要があるかを考えると、2つの構成要素があると思います」とDeepMindのシニアスタッフリサーチエンジニアであるFrederic Besse(フレデリック・ベッセ)氏はプレスブリーフィングで述べた。「まず、実世界の高レベルの理解と何をする必要があるか、そしていくつかの推論があります。」
家の中のヒューマノイドロボットに食器棚に豆の缶が何個あるかチェックするよう頼む場合、システムは豆とは何か、食器棚とは何かなど、さまざまな概念を理解し、その場所にナビゲートする必要がある。Besse氏によると、SIMA 2は物理的な関節や車輪のようなものを制御する低レベルの行動よりも、その高レベルの行動により触れている。
物理ロボティクスシステムへの実装時期は未定
チームは、SIMA 2を物理的なロボティクスシステムに実装するための具体的なタイムラインの共有を拒否した。Besse氏はTechCrunchに、DeepMindが最近発表したロボティクス基礎モデル(これも物理世界について推論し、ミッションを完了するための複数ステップの計画を作成できる)は、SIMAとは異なる方法で別々に訓練されたと語った。
SIMA 2のプレビュー以上のものをリリースするタイムラインもないが、Wang氏はTechCrunchに、目標はDeepMindが取り組んできたことを世界に示し、どのような種類のコラボレーションと潜在的な用途が可能かを見ることだと語った。
引用元:TechCrunch Google’s SIMA 2 agent uses Gemini to reason and act in virtual worlds
https://techcrunch.com/2025/11/13/googles-sima-2-agent-uses-gemini-to-reason-and-act-in-virtual-worlds/

