xAI、Grok 3のベンチマークで虚偽表示の疑い

OpenAIの従業員が、xAIによるGrok 3のベンチマーク結果に誤解を招く表示があると指摘
議論の焦点は「cons@64」スコアの省略と、それによるモデル性能の比較方法
専門家は、各モデルが最高スコアを達成するために要した計算コストと金銭的コストの開示が重要と指摘

Grok 3のベンチマーク虚偽表示か

AIベンチマークとそのAIラボによる報告方法を巡る論争が公の場で展開されている。今週、OpenAIの従業員がElon Musk（イーロン・マスク）氏のAI企業xAIに対し、最新AIモデル「Grok 3」のベンチマーク結果に誤解を招く表示があると非難。これに対しxAIの共同創業者Igor Babushkin（イゴール・バブシュキン）氏は、同社の正当性を主張した。

Completely wrong. We just used the same method you guys used 🤷‍♂️ pic.twitter.com/exLcS0z2xI

— Igor Babuschkin (@ibab) February 20, 2025

AIME 2025ベンチマークを巡る議論

xAIのブログ投稿では、Grok 3の性能を示すグラフを公開。このグラフは最近の招待数学試験からの難問集「AIME 2025」におけるGrok 3の性能を示すものだ。一部の専門家はAIMEのAIベンチマークとしての妥当性に疑問を投げかけているものの、AIME 2025および以前のバージョンは、モデルの数学能力を評価する一般的な指標として使用されている。

xAIのグラフでは、Grok 3の2つのバリアント「Grok 3 Reasoning Beta」と「Grok 3 mini Reasoning」が、OpenAIの最高性能モデル「o3-mini-high」をAIME 2025で上回っていることを示していた。しかし、OpenAIの従業員らはすぐに、xAIのグラフにo3-mini-highの「cons@64」でのAIME 2025スコアが含まれていないと指摘した。

ベンチマーク手法の透明性を巡る課題

「cons@64」は「consensus@64」の略で、モデルに各問題について64回の回答機会を与え、最も頻繁に生成された回答を最終回答とする手法だ。この手法はモデルのベンチマークスコアを大幅に向上させる傾向がある。

Grok 3 Reasoning BetaとGrok 3 mini ReasoningのAIME 2025における「@1」スコア（ベンチマークでの最初のスコア）は、o3-mini-highのスコアを下回っている。また、Grok 3 Reasoning Betaは、「medium」計算設定のOpenAI o1モデルをわずかに下回っている。しかしxAIは、Grok 3を「世界最高の知能を持つAI」として宣伝している。

透明性と評価基準の重要性

AI研究者のNathan Lambert（ネイサン・ランバート）氏は投稿で、各モデルが最高スコアを達成するために要した計算コストと金銭的コストが最も重要な指標であるにもかかわらず、依然として不明のままだと指摘。これは、多くのAIベンチマークがモデルの限界と長所についてほとんど情報を伝えていないことを示している。

Hilarious how some people see my plot as attack on OpenAI and others as attack on Grok while in reality it’s DeepSeek propaganda
(I actually believe Grok looks good there, and openAI’s TTC chicanery behind o3-mini-*high*-pass@”””1″”” deserves more scrutiny.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic

— Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) February 20, 2025