- OpenAIが現行のAIベンチマークの問題を解決するための新プログラムを立ち上げ
- 法律、金融、保険、医療などの特定領域に特化したベンチマークの開発を目指す
- 初期コホートとして選ばれたスタートアップ企業と共同で設計作業を進める予定
- 将来的に開発したベンチマークを公開し、業界全体での活用を目指す
OpenAIによるAIベンチマーク改革の取り組み
OpenAIは現行のAIベンチマークに問題があると考えている。そして今、同社はAIモデルの評価方法を修正するためのプログラムを立ち上げた。
新たな「OpenAI Pioneersプログラム」は、OpenAIがブログ記事で表現したように「良好な状態の基準を設定する」AIモデルの評価手法の創出に焦点を当てる。
「様々な業界でAI導入のペースが加速する中、世界におけるその影響を理解し改善する必要がある」と同社は投稿で続けている。「領域特化型の評価手法を作ることは、実世界のユースケースをより良く反映させる一つの方法であり、チームが実用的かつ重要な環境でのモデルパフォーマンスを評価するのに役立つ」。
現行ベンチマークの課題
最近のクラウドソーシングベンチマーク「LM Arena」とMetaの「Maverick」モデルをめぐる論争が示すように、現在では異なるモデル間の正確な差異を知ることは難しい。広く使用されている多くのAIベンチマークは、博士レベルの数学問題を解くなど特殊なタスクでのパフォーマンスを測定している。また、他のベンチマークはシステムを悪用できたり、大多数の人々の嗜好とうまく一致しなかったりする問題を抱えている。
Pioneersプログラムの目標と実施計画
Pioneersプログラムを通じて、OpenAIは法律、金融、保険、医療、会計などの特定領域のベンチマークを作成することを目指している。同社によれば、今後数か月間で「複数の企業」と協力してカスタマイズされたベンチマークをデザインし、最終的にそれらのベンチマークを「業界特化型」評価と共に公開する予定だ。
「最初のコホートは、OpenAI Pioneersプログラムの基盤づくりを支援するスタートアップに焦点を当てる」とOpenAIはブログ記事に記した。「この初期コホートには、AIが実世界に影響を与えられる高価値かつ応用的なユースケースに取り組む少数のスタートアップを選定している」。
モデル改善とコミュニティの反応
プログラム参加企業はまた、強化型微調整を通じてモデル改善を作成するためにOpenAIのチームと協力する機会も得られるとのことだ。強化型微調整は、狭い範囲のタスクについてモデルを最適化する技術である。
大きな疑問は、OpenAIが資金提供するベンチマークの作成をAIコミュニティが受け入れるかどうかだ。OpenAIは以前からベンチマーク活動に財政的な支援を行い、独自の評価方法も設計してきた。しかし、顧客と提携してAIテストをリリースすることは、倫理的な境界を越え過ぎているとみなされる可能性がある。
引用元:TechCrunch
OpenAI launches program to design new ‘domain-specific’ AI benchmarks