OpenAIのo3 AIモデル、当初発表されたベンチマークよりスコアが低いと判明

OpenAIのo3モデルの第一者評価と第三者評価の間に大きな差異が発見され、同社の透明性とモデルテスト方法に疑問が投げかけられている
OpenAIは当初o3がFrontierMathで25%以上のスコアを達成したと主張したが、独立評価では約10%にとどまった
この差異は、公開されたo3モデルと社内テスト版の間のコンピューティングリソースの違いに起因する可能性がある
AIベンチマークの「論争」は、企業が新モデルで注目を集めようとする業界の一般的な現象となっている

OpenAIのo3モデルのベンチマーク結果に不一致

OpenAIのo3 AIモデルの第一者および第三者ベンチマーク結果の間の不一致が、同社の透明性とモデルテスト実践に関する疑問を呼び起こしている。

OpenAIが12月にo3を発表した際、同社はこのモデルがFrontierMath（難易度の高い数学問題集）の質問の4分の1強に回答できると主張した。このスコアは競合他社を大きく引き離すものだった—次点のモデルはFrontierMathの問題のわずか2%程度しか正解できなかった。

「現在、市場に出ているすべての製品はFrontierMathで2%未満のスコアです」とOpenAIの最高研究責任者であるマーク・チェン（Mark Chen）氏はライブストリーム中に述べた。「我々は社内で、積極的なテスト時コンピューティング設定でo3が25%以上を達成できていることを確認しています。」

判明したところによれば、この数字は先週OpenAIが公開したモデルより多くのコンピューティングパワーを持つo3のバージョンによって達成された上限値だった可能性が高い。

独立ベンチマークがOpenAIの主張と異なる結果を示す

FrontierMathを開発した研究機関であるEpoch AIは、金曜日にo3の独立ベンチマークテスト結果を発表した。Epochの調査によると、o3のスコアは約10%で、OpenAIが主張した最高スコアを大幅に下回っていた。

OpenAI has released o3, their highly anticipated reasoning model, along with o4-mini, a smaller and cheaper model that succeeds o3-mini.

We evaluated the new models on our suite of math and science benchmarks. Results in thread! pic.twitter.com/5gbtzkEy1B

— Epoch AI (@EpochAIResearch) April 18, 2025

これは必ずしもOpenAIが嘘をついたということではない。同社が12月に発表したベンチマーク結果は、Epochが観測したスコアと一致する下限値を示している。またEpochは、そのテスト設定がOpenAIのものとは異なる可能性があり、評価にはFrontierMathの更新版を使用したと指摘した。

「我々の結果とOpenAIの結果の違いは、OpenAIがより強力な内部スキャフォールドで評価したこと、より多くのテスト時[コンピューティング]を使用したこと、あるいはそれらの結果がFrontierMathの異なるサブセット（frontiermath-2024-11-26の180問題 vs frontiermath-2025-02-28-privateの290問題）で実行されたことによるものかもしれない」とEpochは記した。

公開モデルと社内テスト版の差異

o3のプレリリース版をテストした組織であるARC Prize FoundationによるXでの投稿によれば、公開o3モデルは「チャット/製品使用向けに調整された異なるモデルである」とし、Epochの報告を裏付けている。

「リリースされたすべてのo3コンピューティング階層は、私たち[がベンチマークした]バージョンより小さい」とARC Prizeは記した。一般的に、より大きなコンピューティング階層はより良いベンチマークスコアを達成すると予想される。

確かに、o3の公開リリースがOpenAIのテスト約束に及ばないという事実は、同社のo3-mini-highおよびo4-miniモデルがFrontierMathでo3を上回る性能を示し、OpenAIが数週間以内により強力なo3バリアントであるo3-proを発表する予定であるため、やや無意味な点となっている。

しかし、これはAIベンチマークを額面通りに受け取らない方が良いという、また別のリマインダーである—特に販売するサービスを持つ企業が情報源である場合には。