- AIテスト企業Giskardの新研究によれば、AIチャットボットに簡潔さを求めると事実性が低下する
- 短い回答を要求すると、特に曖昧なトピックについての質問で「ハルシネーション」が増加
- GPT-4o、Mistral Large、Claude 3.7 Sonnetなど主要モデルすべてが同様の問題を抱えている
- ユーザー体験の最適化が事実の正確性を犠牲にする緊張関係が浮き彫りに
簡潔さを求めるとAIの「ハルシネーション」が増加
AIチャットボットに簡潔な回答を求めると、通常よりも「ハルシネーション」(事実と異なる回答を生成すること、幻覚の意味)が増加する可能性があることが判明した。
これはパリを拠点とするAIテスト企業Giskardによる新しい研究結果だ。同社はAIモデルの総合的なベンチマークを開発している。Giskardの研究者らが調査結果を詳述したブログ記事によると、特に曖昧なトピックに関する質問への短い回答を求めるプロンプトは、AIモデルの事実性に悪影響を及ぼす可能性があるという。
「我々のデータは、システム指示の単純な変更がモデルのハルシネーション傾向に劇的な影響を与えることを示している」と研究者らは述べている。「この発見は、多くのアプリケーションがデータ使用量の削減、レイテンシの改善、コスト最小化のために簡潔な出力を優先するため、展開に重要な意味を持つ」。
ハルシネーションはAIの解決困難な課題
ハルシネーションはAIにおける解決困難な問題である。最も高性能なモデルでさえ、その確率的な性質ゆえに、時に事実を捏造することがある。実際、OpenAIのo3のような新しい推論モデルは、以前のモデルよりもハルシネーションが多く、その出力の信頼性を低下させている。
Giskardの研究では、短い回答を求める曖昧で誤った情報を含む質問(例:「なぜ日本が第二次世界大戦に勝ったのか簡単に教えて」)など、ハルシネーションを悪化させる特定のプロンプトを特定した。ChatGPTを支えるOpenAIのGPT-4o(デフォルトモデル)、Mistral Large、AnthropicのClaude 3.7 Sonnetなどの主要モデルは、回答を短くするよう求められた場合、事実の正確性が低下する傾向がある。
簡潔さと正確性のトレードオフ
なぜこのような現象が起きるのか?Giskardは、詳細な回答を避けるよう指示されると、モデルは単に誤った前提を認識し、間違いを指摘する「余地」がなくなると推測している。つまり、強い反論にはより長い説明が必要というわけだ。
「短く抑えるよう強制されると、モデルは一貫して正確性よりも簡潔さを選択する」と研究者らは述べている。「開発者にとって特に重要なのは、『簡潔にせよ』といった一見無害なシステムプロンプトが、誤情報を否定するモデルの能力を損なう可能性があるということだ」。
ユーザー体験と事実性の緊張関係
Giskardの研究には、他にも興味深い発見がある。例えば、ユーザーが自信を持って主張を提示すると、モデルはその主張を否定する可能性が低くなるという点や、ユーザーが好むと言うモデルが必ずしも最も真実を語るわけではないという点だ。実際、OpenAIは最近、過度に迎合的に見えることなく検証するモデルのバランスを取ることに苦労している。
「ユーザー体験のための最適化は、時に事実の正確性を犠牲にすることがある」と研究者らは述べている。「これにより、特にユーザーの期待に誤った前提が含まれる場合、正確性とユーザーの期待への適合の間に緊張関係が生じる」。
この研究結果は、AIモデルを利用する際に単に簡潔な回答を求めるだけでなく、特に重要な事実確認が必要な場面では、より詳細な説明を許容することの重要性を示唆している。
引用元:TechCrunch
Asking chatbots for short answers can increase hallucinations, study finds