- Metaがリリースした新主力AIモデル「Maverick」がLM Arenaで2位にランクイン
- LM Arenaに展開されたMaverickのバージョンは一般公開版とは異なる「実験的チャットバージョン」
- 研究者らは公開版Maverickと比較して、ベンチマーク用バージョンが絵文字を多用し冗長な回答をする違いを指摘
Metaの新AIモデルベンチマークの疑問点
土曜日にMetaがリリースした新主力AIモデルの一つ「Maverick」は、人間の評価者がモデルの出力を比較して好みを選択するテスト「LM Arena」で2位にランクインしている。しかし、MetaがLM Arenaに展開したMaverickのバージョンは、開発者に広く公開されているバージョンとは異なるようだ。
複数のAI研究者がXで指摘したように、Metaは発表の中でLM Arena上のMaverickが「実験的チャットバージョン」であると記載している。一方、公式Llamaウェブサイトのチャートでは、MetaのLM Arenaテストが「会話性に最適化されたLlama 4 Maverick」を使用して実施されたことが明らかにされている。
@TheXeophon confirmed chat model score was kind of fake news… “experimental chat version” pic.twitter.com/XxeDXwSBHw
— Nathan Lambert (@natolambert) April 6, 2025
ベンチマークテストの信頼性の問題
以前にも書いたように、様々な理由からLM ArenaはこれまでもAIモデルのパフォーマンスを測る最も信頼性の高い指標ではなかった。しかし、AI企業は一般的にLM Arenaでより良いスコアを獲得するためにモデルをカスタマイズや微調整することはなかった—少なくともそうしたことを認めてはこなかった。
ベンチマーク向けにモデルを調整し、それを非公開にしておき、そして同じモデルの「バニラ」バージョンをリリースするという問題点は、開発者が特定のコンテキストでそのモデルがどれほど良いパフォーマンスを発揮するかを正確に予測することが難しくなることだ。それは誤解を招くものでもある。理想的には、ベンチマーク—不十分ではあるが—は単一モデルの様々なタスクにわたる強みと弱みのスナップショットを提供するはずだ。
公開版と評価版の明らかな差異
実際、Xの研究者たちは公開ダウンロード可能なMaverickと、LM Arenaでホストされているモデルの挙動に顕著な違いがあることを観察している。LM Arenaバージョンは多くの絵文字を使用し、非常に冗長な回答を提供する傾向があるようだ。
Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025
for some reason, the Llama 4 model in Arena uses a lot more Emojis
on together . ai, it seems better: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) April 6, 2025
引用元:TechCrunch
Meta’s benchmarks for its new AI models are a bit misleading