- ポケモンゲームがAIモデル性能評価の新たな指標として議論の的に
- GoogleのGeminiモデルがAnthropicのClaudeを上回ったとする投稿が話題に
- 実際にはGeminiに有利なカスタムマップが用意されていた実態が判明
- AIベンチマークの実装方法による結果の差異が浮き彫りに
ポケモンゲームでのAIモデル対決の真相
AIベンチマークにまつわる論争はポケモンの世界にまで到達した。先週、X(旧Twitter)上で、Googleの最新Geminiモデルが、AnthropicのフラグシップモデルであるClaudeをオリジナルのポケモンビデオゲーム三部作で上回ったと主張する投稿が拡散された。報告によれば、Geminiは開発者のTwitchストリームでシオンタウン(Lavender Town)に到達し、一方のClaudeは2月下旬の時点でおつきのやま(Mount Moon)で足止めされていたという。
Gemini is literally ahead of Claude atm in pokemon after reaching Lavender Town
119 live views only btw, incredibly underrated stream pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) April 10, 2025
しかし、この投稿で言及されなかったのは、Geminiが有利な条件下にあったという事実だ。
不平等な比較条件の実態
Redditのユーザーが指摘したように、Geminiのストリームを管理している開発者は、ゲーム内の「切れる木」などの「タイル」を識別するのに役立つカスタムミニマップを構築していた。これによりGeminiがゲームプレイの決定を行う前にスクリーンショットを分析する必要性が減少していた。
AIベンチマークの課題と実装による差異
ポケモンは、せいぜい半ば真面目なAIベンチマークに過ぎず、モデルの能力を評価する上で非常に有益なテストだと主張する人はほとんどいないだろう。しかし、ベンチマークのさまざまな実装が結果にどのように影響するかを示す教訓的な例であることは間違いない。
例えば、Anthropicは最近のAnthropic 3.7 Sonnetモデルについて、コーディング能力を評価するように設計されたベンチマーク「SWE-bench Verified」で2つのスコアを報告した。Claude 3.7 SonnetはSWE-bench Verifiedで62.3%の精度を達成したが、Anthropicが開発した「カスタムスキャフォールド(足場)」を使用すると70.3%に達した。
さらに最近では、MetaがLlama 4 Maverickという新しいモデルのバージョンを特定のベンチマーク「LM Arena」で良好なパフォーマンスを発揮するようにファインチューニングした。同じ評価において、オリジナルバージョンのモデルのスコアは大幅に低い。
ベンチマーク評価の不完全性と今後の展望
ポケモンを含むAIベンチマークがそもそも不完全な測定基準であることを考えると、カスタムおよび非標準の実装は状況をさらに混乱させる恐れがある。つまり、モデルがリリースされるにつれて比較が容易になる可能性は低いと言えるだろう。
引用元:TechCrunch
Debates over AI benchmarking have reached Pokémon