- AIの数学ベンチマークを開発するEpoch AIが、OpenAIからの資金提供を後付けで開示し、AI業界から批判を受けた。
- OpenAIは開示前からベンチマークの問題と解答にアクセスできる立場にあったことが判明。
- Epoch AIは透明性の欠如を認め、契約上の制限があったと説明している。
- OpenAIのベンチマーク結果の独立検証がまだ完了していない状況だ。
OpenAIの関与を遅れて開示
Open Philanthropy財団を主要な資金源とする非営利組織Epoch AIは、12月20日になってようやく、FrontierMathの開発にOpenAIが資金提供していたことを明らかにした。FrontierMathは、AIの数学的能力を測定するための専門家レベルの問題で構成されたテストで、OpenAIが次期主力AI「o3」のデモンストレーションに使用したベンチマークの一つである。
フォーラムLessWrongにおいて、Epoch AIの請負業者は”Meemi”という名前で活動していたが、FrontierMathのベンチマークの多くの関係者が、OpenAIの関与が公表されるまで知らされていなかったと指摘した。
「このコミュニケーションは透明性を欠いていた」とMeemi氏は述べており、「私の見解では、Epoch AIはOpenAIからの資金提供を開示すべきであり、契約者は自身の作業が能力評価に使用される可能性について、ベンチマーク作業に携わるかどうかを選択する際に透明性のある情報を得るべきだった」と発言している。
o3が発表された12月20日より前に明かさなかったことに対して、RedditなどSNS上では、秘密主義が客観的なベンチマークとしてのFrontierMathの評判を損なう可能性があると批判が集まっています。
Remember o3’s 25% performance on the FrontierMath benchmark?
It turns out that OpenAI funded FrontierMath and has had access to most of the dataset.
Mathematicians who’ve created the problems and solutions for the benchmark were not told OpenAI funded the work and will have… pic.twitter.com/XSgDt7UwfJ
— Mikhail Samin (@Mihonarium) January 19, 2025
Epoch AIの説明と対応
Epoch AIの共同創設者で副ディレクターのTamay Besiroglu(タマイ・ベシログル)氏は、FrontierMathの完全性は損なわれていないと主張しつつも、透明性の欠如は「過ちだった」と認めた。
「o3の発表時期まで提携関係の開示が制限されていたが、振り返ってみれば、ベンチマーク貢献者への透明性確保のため、もっと強く交渉すべきだった」とBesiroglu氏は述べた。「我々の数学者は、誰が自分たちの作業にアクセスできるのかを知る権利があった。契約上の制限はあったものの、貢献者への透明性をOpenAIとの合意における譲れない部分とすべきだった」
独立検証の課題
さらに状況を複雑にしているのは、Epoch AIの主任数学者Ellot Glazer(エロット・グレイザー)氏がRedditで、OpenAIのFrontierMathにおけるo3の結果を独立して検証できていないと指摘したことだ。
「個人的な意見として、彼らのスコアは正当なものであり、内部ベンチマーク性能について虚偽を述べる動機はないと考える」とGlazer氏は述べた。「しかし、我々の独立評価が完了するまでは、彼らの結果を保証することはできない」
この一連の出来事は、AIを評価するための実証的ベンチマークの開発と、利益相反の認識を生むことなくベンチマーク開発に必要なリソースを確保することの難しさを示す新たな例となっている。
引用元:TechCrunch
AI benchmarking organization criticized for waiting to disclose funding from OpenAI