Meta AI幹部、Llama 4ベンチマークスコアの人為的操作を否定

Meta幹部が同社の新AIモデルのベンチマークスコア操作の噂を公式に否定
ソーシャルメディアで広まった噂は中国のSNSからの投稿が発端
一部ユーザーからモデルの性能に関する懸念が報告される中での声明

Metaの幹部がLlama 4ベンチマークスコア操作の噂を否定

月曜日、Metaの幹部が同社の新型AIモデルを特定のベンチマークで好成績を出すよう訓練し、モデルの弱点を隠蔽したとする噂を否定した。同社のジェネレーティブAI担当バイスプレジデントであるAhmad Al-Dahle（アーマド・アルダーレ）氏はXへの投稿で、MetaがLlama 4 MaverickとLlama 4 Scoutモデルを「テストセット」で訓練したという主張は「単に事実ではない」と述べた。AIベンチマークにおいて、テストセットとはモデルが訓練された後にその性能を評価するために使用されるデータ集合である。テストセット上で訓練を行うことは、モデルのベンチマークスコアを誤解を招くほど人為的に向上させ、実際よりも高性能に見せかける可能性がある。

We’re glad to start getting Llama 4 in all your hands. We’re already hearing lots of great results people are getting with these models.

That said, we’re also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…

— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025

ソーシャルメディアで広がる根拠のない噂

週末にかけて、Metaが新モデルのベンチマーク結果を人為的に向上させたという根拠のない噂がXとRedditで広がり始めた。この噂は、中国のソーシャルメディアサイトに投稿された、同社のベンチマーク実践に抗議してMetaを辞職したと主張するユーザーからの投稿が発端となったようだ。MaverickとScoutが特定のタスクで性能が低いという報告や、Metaがベンチマークのスコアを向上させるために実験的な未リリース版のMaverickをLM Arenaで使用したという決定が、この噂に拍車をかけた。Xの研究者たちは、一般に公開されているMaverickと、LM Arenaでホストされているモデルの動作には顕著な違いがあると指摘している。

Preliminary results for Meta’s Llama v4 for DevQualityEval v1.0 DO NOT LOOK GOOD 😱😿

It seems that both models TANKED in Java, which is a big part of the eval. Good in Go and Ruby but not TOP10 good.

Meta: Llama v4 Scout 109B
– 🏁 Overall score 62.53% mid-range
– 🐕‍🦺 With… pic.twitter.com/XXImGx11C0

— Markus Zimmermann (@zimmskal) April 5, 2025

クラウドプロバイダー間での品質のばらつきについて

Al-Dahle氏は、一部のユーザーがモデルをホストする異なるクラウドプロバイダー間でMaverickとScoutの「品質にばらつき」があることを認めた。「モデルが準備できたらすぐにリリースしたため、すべての公開実装が調整されるまでには数日かかると予想している」とAl-Dahle氏は述べた。「我々はバグ修正とパートナーのオンボーディングを引き続き進めていく」。

引用元：TechCrunch
Meta exec denies the company artificially boosted Llama 4’s benchmark scores