- OpenAIの最新モデル「o3」と「o4-mini」は旧モデルよりもハルシネーション率が高い
- 「o3」は人物に関する質問の33%で幻覚を示し、「o4-mini」は48%と更に高い割合を記録
- OpenAIは推論モデルにおける幻覚増加の原因を解明できておらず「さらなる研究が必要」と言及
- ウェブ検索機能の統合が精度向上の有望なアプローチとして期待される
OpenAIの最新モデルに見られる幻覚の増加
OpenAIが最近発表した「o3」と「o4-mini」AIモデルは多くの点で最先端だが、依然として「ハルシネーション(=幻覚)」(誤情報の生成)の問題を抱えている。実際、これらの新モデルはOpenAIの古いモデルよりも幻覚が多いことが判明した。
幻覚はAIにおける最大かつ最も解決が困難な問題の一つであり、現在最高性能のシステムでさえ影響を受けている。歴史的に見れば、各新モデルは幻覚の面で若干の改善を示し、前身よりも幻覚が少なくなる傾向があった。しかし「o3」と「o4-mini」ではそうなっていないようだ。
内部テストで明らかになった幻覚率
OpenAIの内部テストによると、いわゆる推論モデルである「o3」と「o4-mini」は、同社の以前の推論モデル「o1」「o1-mini」「o3-mini」や、GPT-4oなどの従来の「非推論」モデルよりも幻覚が多いという。
おそらくより懸念すべきは、ChatGPTの開発元がこの現象が起きている理由を本当に理解していないことだ。
「o3」と「o4-mini」の技術報告書でOpenAIは、推論モデルのスケールアップに伴い幻覚が悪化する理由を理解するには「さらなる研究が必要」と述べている。「o3」と「o4-mini」はコーディングや数学に関連するタスクなど一部の分野ではより良いパフォーマンスを示すが、「全体的により多くの主張を行う」ため、報告書によれば「より正確な主張と同時により不正確/幻覚的な主張も行う」ことになる。
独自ベンチマークでの幻覚率
OpenAIは、同社の社内ベンチマークである「PersonQA」(モデルの人物に関する知識の正確さを測定するもの)での質問に対して、「o3」は33%の割合で幻覚を示したことを発見した。これはOpenAIの以前の推論モデル「o1」と「o3-mini」の幻覚率(それぞれ16%と14.8%)のほぼ2倍だ。「o4-mini」はPersonQAでさらに悪く、48%の時間で幻覚を示した。
非営利AIリサーチラボであるTransluceによるサードパーティテストでも、「o3」が回答に至るプロセスで行った行動を捏造する傾向があるという証拠が見つかった。一例として、Transluceは「o3」が「ChatGPT外部」で2021年MacBook Proでコードを実行し、その数値を回答にコピーしたと主張するのを観察した。「o3」は一部のツールにアクセスできるが、そのような操作はできない。
専門家の見解と幻覚の課題
「o系列モデルに使用される種類の強化学習が、標準の訓練後パイプラインによって通常は軽減される(しかし完全には解消されない)問題を増幅させている可能性があるというのが私たちの仮説だ」と、Transluceの研究者で元OpenAI従業員のNeil Chowdhury(ニール・チョードリー)氏は述べた。
Transluceの共同創設者Sarah Schwettmann(サラ・シュヴェットマン)氏は、「o3」の幻覚率がそうでなければ持つはずの有用性を低下させる可能性があると付け加えた。
スタンフォード大学の非常勤教授でスキルアップスタートアップWorkera(ワーケラ)のCEOであるKian Katanforoosh(キアン・カタンフォルーシュ)氏は、同氏のチームは既に「o3」をコーディングワークフローでテストしており、それが競合を上回るステップであることを発見したと語った。しかし、Katanforoosh氏によると、「o3」は壊れたウェブサイトリンクを幻覚する傾向があるという。モデルはリンクを提供するが、クリックしても機能しない。
ビジネス利用での懸念と解決策
幻覚はモデルが興味深いアイデアを生み出し「思考」において創造的になるのに役立つ可能性があるが、正確さが最も重要な市場の企業にとっては一部のモデルが売りにくくなる。例えば、法律事務所は顧客契約に多くの事実誤認を挿入するモデルに満足しないだろう。
モデルの精度を高める有望なアプローチの一つは、ウェブ検索機能を提供することだ。OpenAIのGPT-4oはウェブ検索機能を使用することで、OpenAIの別の精度ベンチマークであるSimpleQAで90%の精度を達成する。潜在的に、検索は推論モデルの幻覚率も改善する可能性がある—少なくともユーザーがプロンプトをサードパーティの検索プロバイダーに公開しても構わない場合だ。
推論モデルのスケールアップが実際に幻覚を悪化させ続けるならば、解決策を見つけることがますます急務になるだろう。
「すべてのモデルにおける幻覚への対処は継続的な研究分野であり、私たちはそれらの精度と信頼性を向上させるために継続的に取り組んでいる」と、OpenAIの広報担当者Niko Felix(ニコ・フェリックス)氏は述べた。
昨年、AI業界全体は従来のAIモデルを改善する技術が収穫逓減を示し始めた後、推論モデルに焦点を当てる方向に転換した。推論は訓練中に大量の計算とデータを必要とせずに、様々なタスクでモデルのパフォーマンスを向上させる。しかし、推論がより多くの幻覚につながる可能性もあるようだ—これは課題を提示している。
引用元:TechCrunch
OpenAI’s new reasoning AI models hallucinate more