OpenAIが新たな「領域特化型」AIベンチマークプログラムを発表

OpenAIが現行のAIベンチマークの問題を解決するための新プログラムを立ち上げ
法律、金融、保険、医療などの特定領域に特化したベンチマークの開発を目指す
初期コホートとして選ばれたスタートアップ企業と共同で設計作業を進める予定
将来的に開発したベンチマークを公開し、業界全体での活用を目指す

OpenAIによるAIベンチマーク改革の取り組み

OpenAIは現行のAIベンチマークに問題があると考えている。そして今、同社はAIモデルの評価方法を修正するためのプログラムを立ち上げた。

新たな「OpenAI Pioneersプログラム」は、OpenAIがブログ記事で表現したように「良好な状態の基準を設定する」AIモデルの評価手法の創出に焦点を当てる。

「様々な業界でAI導入のペースが加速する中、世界におけるその影響を理解し改善する必要がある」と同社は投稿で続けている。「領域特化型の評価手法を作ることは、実世界のユースケースをより良く反映させる一つの方法であり、チームが実用的かつ重要な環境でのモデルパフォーマンスを評価するのに役立つ」。

現行ベンチマークの課題

最近のクラウドソーシングベンチマーク「LM Arena」とMetaの「Maverick」モデルをめぐる論争が示すように、現在では異なるモデル間の正確な差異を知ることは難しい。広く使用されている多くのAIベンチマークは、博士レベルの数学問題を解くなど特殊なタスクでのパフォーマンスを測定している。また、他のベンチマークはシステムを悪用できたり、大多数の人々の嗜好とうまく一致しなかったりする問題を抱えている。

Pioneersプログラムの目標と実施計画

Pioneersプログラムを通じて、OpenAIは法律、金融、保険、医療、会計などの特定領域のベンチマークを作成することを目指している。同社によれば、今後数か月間で「複数の企業」と協力してカスタマイズされたベンチマークをデザインし、最終的にそれらのベンチマークを「業界特化型」評価と共に公開する予定だ。

「最初のコホートは、OpenAI Pioneersプログラムの基盤づくりを支援するスタートアップに焦点を当てる」とOpenAIはブログ記事に記した。「この初期コホートには、AIが実世界に影響を与えられる高価値かつ応用的なユースケースに取り組む少数のスタートアップを選定している」。