DeepMindの新Genie 3ワールドモデルがAGIへの踏み台と同社が言及

DeepMind Google

  • Google DeepMindがGenie 3を発表、汎用AIエージェント訓練が可能な初のリアルタイム対話型汎用ワールドモデル
  • 720p解像度24fpsで数分間の対話型3D環境生成が可能、前作Genie 2の10-20秒から大幅向上
  • 物理法則の一貫性を保持し、生成内容を記憶する能力を獲得、明示的プログラミングなしで実現
  • 汎用知能(AGI)到達における重要な踏み台として位置づけ、エージェントの自律学習を促進

初のリアルタイム対話型汎用ワールドモデルGenie 3

Google DeepMindは、汎用AIエージェントの訓練に使用できる最新の基盤ワールドモデルGenie 3を発表した。このAI研究所は、この機能が「汎用人工知能」または人間のような知能への道筋における重要な踏み台になると述べている。

「Genie 3は初のリアルタイム対話型汎用ワールドモデルである」とDeepMindの研究ディレクターShlomi Fruchter(シュロミ・フルフター)氏が記者説明会で述べた。「これまで存在していた狭いワールドモデルを超越している。特定の環境に限定されない。写実的世界と想像上の世界、そしてその間のあらゆるものを生成できる。」

まだ研究プレビュー段階で一般公開されていないGenie 3は、前身のGenie 2(エージェント用の新環境を生成可能)とDeepMindの最新ビデオ生成モデルVeo 3(物理学への深い理解を持つとされる)の両方を基盤として構築されている。

簡単なテキストプロンプトにより、Genie 3は720p解像度で毎秒24フレームの対話型3D環境を数分間生成できる。これはGenie 2が生成可能だった10から20秒からの大幅な向上である。このモデルは「プロンプト可能なワールドイベント」機能も備えており、プロンプトを使用して生成された世界を変更する能力を持つ。

物理一貫性を保持する自律学習機能

おそらく最も重要なのは、Genie 3のシミュレーションが時間の経過とともに物理的に一貫性を保つことである。これは、モデルが以前に生成したものを記憶できるためで、DeepMindの研究者がモデルに明示的にプログラムしなかった機能だという。

Fruchter氏は、Genie 3が教育体験、ゲーム、創造的コンセプトのプロトタイピングに影響を持つ一方で、真の可能性は汎用タスク用エージェントの訓練に現れ、これがAGI到達に不可欠だと述べた。

「我々はワールドモデルがAGIへの道筋において重要だと考えており、特に実世界シナリオのシミュレーションが特に困難な具現化エージェントにとって」とDeepMindのオープンエンドネスチームの研究科学者Jack Parker-Holder(ジャック・パーカー・ホルダー)氏が説明会で述べた。

Genie 3はこのボトルネックを解決するよう設計されている。Veoと同様に、ハードコードされた物理エンジンに依存しない。代わりに、DeepMindによると、モデルは生成したものを記憶し、長期間にわたって推論することで、オブジェクトがどのように動き、落下し、相互作用するかという世界の仕組みを自己学習する。

SIMAエージェントとの統合実験で実証された能力

「モデルは自己回帰的で、一度に1フレームずつ生成する」とFruchter氏がインタビューで語った。「次に何が起こるかを決定するために、以前に生成されたものを振り返る必要がある。それがアーキテクチャの重要な部分だ。」

同社によると、この記憶がGenie 3のシミュレーション世界の一貫性に寄与し、それにより物理学の把握を発達させることができる。これは、テーブルの端でぐらつくグラスが落ちようとしていることや、落下物を避けるためにかがむべきことを人間が理解するのと似ている。

注目すべきことに、DeepMindはこのモデルがAIエージェントを限界まで押し上げる可能性も持つと述べている。人間が現実世界で学習するのと同様に、自らの経験から学習することを強制する。

例として、DeepMindはGenie 3を最新版の汎用Scalable Instructable Multiworld Agent(SIMA)でテストし、一連の目標を追求するよう指示した内容を共有した。倉庫環境で、「明るい緑色のごみ圧縮機に近づく」や「荷積みされた赤いフォークリフトまで歩く」などのタスクを実行するよう エージェントに求めた。

「3つのケース全てで、SIMAエージェントは目標を達成できる」とParker-Holder氏は述べた。「エージェントからアクションを受け取るだけだ。エージェントは目標を受け取り、周囲にシミュレーションされた世界を見て、世界でアクションを実行する。Genie 3が前進をシミュレーションし、それを達成できるのはGenie 3が一貫性を保つからだ。」

限界と将来への展望

とはいえ、Genie 3には限界もある。例えば、研究者は物理学を理解できると主張するが、スキーヤーが山を滑り降りるデモでは、スキーヤーに対する雪の動きが反映されていなかった。

さらに、エージェントが実行できるアクションの範囲は限定的である。例えば、プロンプト可能なワールドイベントは幅広い環境介入を可能にするが、必ずしもエージェント自体によって実行されるわけではない。共有環境における複数の独立エージェント間の複雑な相互作用を正確にモデル化することも依然として困難である。

Genie 3は数分間の継続的相互作用しかサポートできないが、適切な訓練には数時間が必要である。

それでも、このモデルは入力への反応を超えてエージェントを教育する魅力的な前進を示しており、計画、探索、不確実性の追求、試行錯誤による改善を潜在的に可能にする。これは多くの人が汎用知能に向けて進むために重要だと言う、自己駆動型の具現化学習の種類である。

「我々はまだ具現化エージェントについて『Move 37』のような瞬間を持っていない。彼らが現実世界で実際に新しいアクションを実行できる」とParker-Holder氏は述べ、2016年のDeepMindのAIエージェントAlphaGoと世界チャンピオンLee Sedol(イ・セドル)氏の間の囲碁ゲームでの伝説的瞬間に言及した。AlphaGoが人間の理解を超えた新戦略を発見するAIの能力を象徴する、型破りで見事な手を打った瞬間である。

「しかし今、我々は潜在的に新時代の到来を告げることができる」と彼は述べた。

引用元: TechCrunch DeepMind thinks its new Genie 3 world model presents a stepping stone toward AGI https://techcrunch.com/2025/08/05/deepmind-thinks-its-new-genie-3-world-model-presents-a-stepping-stone-toward-agi/

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です