Meta AI幹部、Llama 4ベンチマークスコアの人為的操作を否定

Meta AI

  • Meta幹部が同社の新AIモデルのベンチマークスコア操作の噂を公式に否定
  • ソーシャルメディアで広まった噂は中国のSNSからの投稿が発端
  • 一部ユーザーからモデルの性能に関する懸念が報告される中での声明

Metaの幹部がLlama 4ベンチマークスコア操作の噂を否定

月曜日、Metaの幹部が同社の新型AIモデルを特定のベンチマークで好成績を出すよう訓練し、モデルの弱点を隠蔽したとする噂を否定した。同社のジェネレーティブAI担当バイスプレジデントであるAhmad Al-Dahle(アーマド・アルダーレ)氏はXへの投稿で、MetaがLlama 4 MaverickとLlama 4 Scoutモデルを「テストセット」で訓練したという主張は「単に事実ではない」と述べた。AIベンチマークにおいて、テストセットとはモデルが訓練された後にその性能を評価するために使用されるデータ集合である。テストセット上で訓練を行うことは、モデルのベンチマークスコアを誤解を招くほど人為的に向上させ、実際よりも高性能に見せかける可能性がある。

ソーシャルメディアで広がる根拠のない噂

週末にかけて、Metaが新モデルのベンチマーク結果を人為的に向上させたという根拠のない噂がXとRedditで広がり始めた。この噂は、中国のソーシャルメディアサイトに投稿された、同社のベンチマーク実践に抗議してMetaを辞職したと主張するユーザーからの投稿が発端となったようだ。MaverickとScoutが特定のタスクで性能が低いという報告や、Metaがベンチマークのスコアを向上させるために実験的な未リリース版のMaverickをLM Arenaで使用したという決定が、この噂に拍車をかけた。Xの研究者たちは、一般に公開されているMaverickと、LM Arenaでホストされているモデルの動作には顕著な違いがある指摘している

クラウドプロバイダー間での品質のばらつきについて

Al-Dahle氏は、一部のユーザーがモデルをホストする異なるクラウドプロバイダー間でMaverickとScoutの「品質にばらつき」があることを認めた。「モデルが準備できたらすぐにリリースしたため、すべての公開実装が調整されるまでには数日かかると予想している」とAl-Dahle氏は述べた。「我々はバグ修正とパートナーのオンボーディングを引き続き進めていく」。

引用元:TechCrunch
Meta exec denies the company artificially boosted Llama 4’s benchmark scores

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です