Anthropic、最新AIモデルのベンチマークにポケモンを使用

Anthropicが最新モデルClaude 3.7 Sonnetのテストにゲームボーイの名作「ポケモン赤」を使用
このAIモデルは「拡張思考」機能を活用し、3人のジムリーダーに勝利する成果を達成
前モデルがマサラタウンの家から出られなかったのに対し、大幅な進歩を示す
ゲームはAIベンチマークとして長い歴史を持ち、様々なテスト環境で活用されている

Anthropicが最新AIモデルのベンチマークにポケモンを使用した。その通り、本当の話だ。

Claude 3.7 Sonnetとポケモンのベンチマークテスト

月曜日に公開されたブログ記事で、Anthropicは最新モデルClaude 3.7 Sonnetをゲームボーイの名作「ポケモン赤」でテストしたことを明らかにした。同社はこのモデルに基本的なメモリ機能、画面ピクセル入力、ボタン操作や画面ナビゲーションのための関数呼び出し機能を装備し、ポケモンを継続的にプレイできるようにした。

Claude 3.7 Sonnetの「拡張思考」機能が鍵

Claude 3.7 Sonnetの特徴的な機能は「拡張思考」能力だ。OpenAIのo3-miniやDeepSeekのR1と同様に、Claude 3.7 Sonnetはより多くの計算処理を適用し、より多くの時間をかけることで、難しい問題を「推論」することができる。

この機能が、ポケモン赤のプレイにおいて明らかに役立ったようだ。

前モデルとの大幅な性能向上を示す結果

以前のバージョンであるClaude 3.0 Sonnetがストーリーの始まりであるマサラタウンの家から出ることができなかったのに対し、Claude 3.7 Sonnetは3人のポケモンジムリーダーと戦い、バッジを獲得することに成功した。

ただし、Claude 3.7 Sonnetがこれらのマイルストーンに到達するためにどれだけの計算処理が必要だったか、また各段階にどれくらいの時間がかかったかは明らかにされていない。Anthropicが明かしたのは、モデルが最後のジムリーダーであるマチスに到達するまでに35,000の行動を実行したということだけだ。

熱心な開発者がすぐにこれを検証することになるだろう。

ゲームはAIベンチマークとして長い歴史を持つ

ポケモン赤はどちらかといえばおもちゃのようなベンチマークだが、ゲームがAIベンチマークの目的で使用されてきた長い歴史がある。ここ数カ月だけでも、ストリートファイターからピクショナリーまで、様々なゲームタイトルでモデルのゲームプレイ能力をテストするための新しいアプリやプラットフォームが数多く登場している。

引用元：TechCrunch
Anthropic used Pokémon to benchmark its newest AI model