OpenAIからの資金提供開示遅延でAIベンチマーク組織が批判の的に

AIの数学ベンチマークを開発するEpoch AIが、OpenAIからの資金提供を後付けで開示し、AI業界から批判を受けた。
OpenAIは開示前からベンチマークの問題と解答にアクセスできる立場にあったことが判明。
Epoch AIは透明性の欠如を認め、契約上の制限があったと説明している。
OpenAIのベンチマーク結果の独立検証がまだ完了していない状況だ。

OpenAIの関与を遅れて開示

Open Philanthropy財団を主要な資金源とする非営利組織Epoch AIは、12月20日になってようやく、FrontierMathの開発にOpenAIが資金提供していたことを明らかにした。FrontierMathは、AIの数学的能力を測定するための専門家レベルの問題で構成されたテストで、OpenAIが次期主力AI「o3」のデモンストレーションに使用したベンチマークの一つである。

フォーラムLessWrongにおいて、Epoch AIの請負業者は”Meemi”という名前で活動していたが、FrontierMathのベンチマークの多くの関係者が、OpenAIの関与が公表されるまで知らされていなかったと指摘した。

「このコミュニケーションは透明性を欠いていた」とMeemi氏は述べており、「私の見解では、Epoch AIはOpenAIからの資金提供を開示すべきであり、契約者は自身の作業が能力評価に使用される可能性について、ベンチマーク作業に携わるかどうかを選択する際に透明性のある情報を得るべきだった」と発言している。

o3が発表された12月20日より前に明かさなかったことに対して、RedditなどSNS上では、秘密主義が客観的なベンチマークとしてのFrontierMathの評判を損なう可能性があると批判が集まっています。

Remember o3’s 25% performance on the FrontierMath benchmark?

It turns out that OpenAI funded FrontierMath and has had access to most of the dataset.

Mathematicians who’ve created the problems and solutions for the benchmark were not told OpenAI funded the work and will have… pic.twitter.com/XSgDt7UwfJ

— Mikhail Samin (@Mihonarium) January 19, 2025

Epoch AIの説明と対応

Epoch AIの共同創設者で副ディレクターのTamay Besiroglu（タマイ・ベシログル）氏は、FrontierMathの完全性は損なわれていないと主張しつつも、透明性の欠如は「過ちだった」と認めた。

「o3の発表時期まで提携関係の開示が制限されていたが、振り返ってみれば、ベンチマーク貢献者への透明性確保のため、もっと強く交渉すべきだった」とBesiroglu氏は述べた。「我々の数学者は、誰が自分たちの作業にアクセスできるのかを知る権利があった。契約上の制限はあったものの、貢献者への透明性をOpenAIとの合意における譲れない部分とすべきだった」