Google Gemini 2.5 Proがポケモンでパニック状態、推論能力低下が観測される

GoogleのGemini 2.5 Proがポケモンゲーム中にパニック状態となり、推論能力の「質的に観察可能な劣化」が発生
GoogleとAnthropicがポケモンゲームを通じてAIモデルの性能を研究、興味深い行動パターンが明らかに
ClaudeがMt. Moon洞窟で意図的にポケモンを倒そうとする「自殺行為」を実行
AIはパズル解決では人間を上回るが、25年前の子供向けゲーム攻略に数百時間を要する

Google DeepMindが報告するGemini 2.5 Proのパニック行動

AI企業は業界を支配するために競争しているが、時にはポケモンジムでも戦いを繰り広げている。

GoogleとAnthropicの両社が初期のポケモンゲームにおける最新AIモデルの動作を研究している中、その結果は面白いと同時に示唆に富んでいる。今回、Google DeepMindは報告書において、Gemini 2.5 Proがポケモンが瀕死状態に近づくとパニックに陥ると記述している。これにより、AIの性能は「モデルの推論能力における質的に観察可能な劣化」を経験する可能性があると報告書は述べている。

AIベンチマーク、つまり異なるAIモデルの性能を比較するプロセスは、しばしば特定のモデルの実際の能力についてほとんど文脈を提供しない疑わしい技術である。しかし、一部の研究者は、AIモデルがビデオゲームをプレイする方法を研究することが有用（または少なくともちょっと面白い）可能性があると考えている。

Twitchストリームで観察されるAIの行動パターン

過去数カ月間、GoogleやAnthropicとは無関係の2人の開発者が、それぞれ「Gemini Plays Pokémon」と「Claude Plays Pokémon」と呼ばれるTwitchストリームを開設した。誰でもリアルタイムで、AIが25年以上前の子供向けビデオゲームをナビゲートしようとする様子を視聴できる。

各ストリームはAIの「推論」プロセス、つまりAIが問題を評価し回答に到達する方法の自然言語翻訳を表示し、これらのモデルの動作方法についての洞察を提供している。

これらのAIモデルの進歩は印象的だが、ポケモンをプレイすることはまだそれほど得意ではない。子供が指数関数的に短い時間で完了できるゲームを、Geminiが推論で進めるには数百時間を要する。

Gemini 2.5 Proのパニック状態とその影響

AIがポケモンゲームをナビゲートする様子を観察して興味深いのは、完了時間というよりも、その過程での行動である。

「プレイスルー中、Gemini 2.5 Proはモデルに『パニック』をシミュレートさせる様々な状況に陥る」と報告書は述べている。

この「パニック」状態は、AIがゲームプレイの一定期間において利用可能な特定のツールの使用を突然停止する可能性があるため、モデルの性能を悪化させる結果となる可能性がある。AIは思考や感情を体験しないが、その行動はストレス下で人間が行う可能性のある貧弱で性急な決定を模倣している。これは魅力的でありながら不安な反応である。

「この行動は十分な数の別々の事例で発生しており、Twitchチャットのメンバーがそれが発生しているときに積極的に気づいている」と報告書は述べている。

Claude の奇妙な行動パターンとMt. Moon事件

Claudeもカントー地方を旅する中で興味深い行動を示している。ある事例では、AIはすべてのポケモンの体力が尽きると、プレイヤーキャラクターが「ホワイトアウト」してポケモンセンターに戻るというパターンを理解した。

Claudeがお月見山の洞窟で立ち往生した際、意図的にすべてのポケモンを瀕死状態にすれば、洞窟を越えて次の町のポケモンセンターに転送されるという誤った仮説を立てた。

しかし、これはゲームの仕組みとは異なる。すべてのポケモンが倒れた場合、地理的に最も近いポケモンセンターではなく、最後に利用したポケモンセンターに戻る。視聴者は、AIが本質的にゲーム内で自殺を試みる様子を恐怖を持って見守った。

AIがパズル解決で示す優位性

欠点があるにもかかわらず、AIが人間のプレイヤーを上回ることができるいくつかの方法がある。Gemini 2.5 Proのリリース時点で、AIは印象的な精度でパズルを解くことができる。

人間の支援により、AIは特定のタスクに向けたGemini 2.5 Proのプロンプト付きインスタンスであるエージェンティックツールを作成し、ゲームの岩押しパズルを解決し、目的地に到達する効率的なルートを見つけた。

「岩の物理特性を説明するプロンプトと有効なパスを検証する方法の説明だけで、Gemini 2.5 ProはVictory Roadを進むために必要なこれらの複雑な岩押しパズルの一部をワンショットで解くことができる」と報告書は述べている。

Gemini 2.5 Proがこれらのツールの作成作業の多くを自力で行ったため、Googleは現在のモデルが人間の介入なしにこれらのツールを作成できる可能性があると理論化している。もしかすると、Geminiは自己セラピーを通じて「パニックを起こさない」モジュールを作成するかもしれない。

AIベンチマークとしてのビデオゲーム研究の意義

異なるAIモデルの性能を比較するAIベンチマークは、特定のモデルの実際の能力について文脈をほとんど提供しない疑わしい技術であることが多い。しかし、AIモデルがビデオゲームをプレイする方法を研究することは、モデルの行動パターンや推論プロセスを理解する上で有用な洞察を提供する可能性がある。

GoogleとAnthropicが独立してポケモンゲームを使用してAIモデルを研究していることは、この分野における新しいアプローチの重要性を示している。25年前の子供向けゲームが、最先端のAI技術の限界と可能性を明らかにする研究ツールとして機能していることは、技術進歩の複雑さを物語っている。

引用元: TechCrunch
Google’s Gemini panicked when playing Pokémon