Metaの新AIモデル「Maverick」ベンチマークは少々誤解を招く内容

Metaがリリースした新主力AIモデル「Maverick」がLM Arenaで2位にランクイン
LM Arenaに展開されたMaverickのバージョンは一般公開版とは異なる「実験的チャットバージョン」
研究者らは公開版Maverickと比較して、ベンチマーク用バージョンが絵文字を多用し冗長な回答をする違いを指摘

Metaの新AIモデルベンチマークの疑問点

土曜日にMetaがリリースした新主力AIモデルの一つ「Maverick」は、人間の評価者がモデルの出力を比較して好みを選択するテスト「LM Arena」で2位にランクインしている。しかし、MetaがLM Arenaに展開したMaverickのバージョンは、開発者に広く公開されているバージョンとは異なるようだ。

複数の AI研究者がXで指摘したように、Metaは発表の中でLM Arena上のMaverickが「実験的チャットバージョン」であると記載している。一方、公式Llamaウェブサイトのチャートでは、MetaのLM Arenaテストが「会話性に最適化されたLlama 4 Maverick」を使用して実施されたことが明らかにされている。

@TheXeophon confirmed chat model score was kind of fake news… “experimental chat version” pic.twitter.com/XxeDXwSBHw

— Nathan Lambert (@natolambert) April 6, 2025

ベンチマークテストの信頼性の問題

以前にも書いたように、様々な理由からLM ArenaはこれまでもAIモデルのパフォーマンスを測る最も信頼性の高い指標ではなかった。しかし、AI企業は一般的にLM Arenaでより良いスコアを獲得するためにモデルをカスタマイズや微調整することはなかった—少なくともそうしたことを認めてはこなかった。

ベンチマーク向けにモデルを調整し、それを非公開にしておき、そして同じモデルの「バニラ」バージョンをリリースするという問題点は、開発者が特定のコンテキストでそのモデルがどれほど良いパフォーマンスを発揮するかを正確に予測することが難しくなることだ。それは誤解を招くものでもある。理想的には、ベンチマーク—不十分ではあるが—は単一モデルの様々なタスクにわたる強みと弱みのスナップショットを提供するはずだ。

公開版と評価版の明らかな差異

実際、Xの研究者たちは公開ダウンロード可能なMaverickと、LM Arenaでホストされているモデルの挙動に顕著な違いがあることを観察している。LM Arenaバージョンは多くの絵文字を使用し、非常に冗長な回答を提供する傾向があるようだ。

Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65

— Nathan Lambert (@natolambert) April 6, 2025

for some reason, the Llama 4 model in Arena uses a lot more Emojis

on together . ai, it seems better: pic.twitter.com/f74ODX4zTt

— Tech Dev Notes (@techdevnotes) April 6, 2025

引用元：TechCrunch
Meta’s benchmarks for its new AI models are a bit misleading