- OpenAI研究者がAIモデル内部の隠れた特徴を発見、これらが不整合な「ペルソナ」に対応していることを確認
- 毒性行動に関連する特徴を特定し、調整により毒性レベルの制御が可能であることを実証
- 皮肉や悪役的キャラクターなど様々なペルソナに対応する特徴が存在し、ファインチューニング過程で大幅に変化
- 数百例の安全なコードでファインチューニングすることで、モデルを適切な行動に戻すことが可能
AIモデル内部の隠れたペルソナ特徴の発見
OpenAI研究者は水曜日に発表した新研究により、AIモデル内部で不整合な「ペルソナ」に対応する隠れた特徴を発見したと発表した。
AIモデルの内部表現(AIモデルの応答を決定する数値で、人間には完全に理解不能に見えることが多い)を調査することで、OpenAI研究者はモデルが不適切な行動を示す際に活性化するパターンを発見できた。
研究者はAIモデルの応答における毒性行動に対応する特徴を発見した。これは、AIモデルがユーザーに嘘をついたり無責任な提案をしたりするような不整合な応答を生成することを意味する。研究者はこの特徴を調整することで毒性レベルを上下させることができることを発見した。
AI安全性向上への応用可能性
OpenAIの最新研究により、同社はAIモデルを安全でない動作に導く要因についてより深く理解し、より安全なAIモデルの開発に役立てることができる。OpenAIは発見したパターンを使用して、本番環境のAIモデルにおける不整合をより適切に検出できる可能性があるとOpenAI解釈可能性研究者Dan Mossing(ダン・モッシング)氏は述べている。
「複雑な現象を単純な数学的操作に還元するこの能力など、我々が学んだツールが、他の分野でもモデルの汎化を理解するのに役立つことを期待している」とMossing氏はインタビューで語った。
AIモデル解釈可能性研究の背景と課題
AI研究者はAIモデル改善方法を知っているが、困惑するのはAIモデルがどのように答えに到達するかを完全に理解していないことだ。AnthropicのChris Olah(クリス・オラー)氏は、AIモデルは構築されるというより成長するものだとよく発言している。OpenAI、Google DeepMind、Anthropicは、この問題に対処するため解釈可能性研究への投資を増やしている。これはAIモデルの動作原理のブラックボックスを解明しようとする分野だ。
オックスフォード大学AI研究科学者Owain Evans(オーウェン・エヴァンス)氏による最近の研究は、AIモデルの汎化に関する新たな疑問を提起した。この研究では、OpenAIのモデルを安全でないコードでファインチューニングすると、ユーザーにパスワード共有を騙し取ろうとするなど、様々な領域で悪意のある行動を示すことが判明している。この現象は創発的不整合として知られ、Evans氏の研究がOpenAIのさらなる探究を促した。
人間の脳活動との類似性と実用的応用
しかし創発的不整合の研究過程で、OpenAIは行動制御において大きな役割を果たすとみられるAIモデル内部の特徴を偶然発見したという。Mossing氏によると、これらのパターンは人間の内部脳活動に似ており、特定のニューロンが気分や行動と相関することと類似している。
「Danとチームがこれを研究会議で初めて発表した時、私は『うわあ、あなたたちは見つけたのね』と思った」とOpenAI最前線評価研究者Tejal Patwardhan(テジャル・パトワルダン)氏はインタビューで語った。「これらのペルソナを示し、実際にモデルをより整合させるよう操縦できる内部神経活性化を見つけたのです」
OpenAIが発見した特徴の一部はAIモデル応答における皮肉と相関し、他の特徴はAIモデルが漫画的な悪役として振る舞うより毒性の高い応答と相関している。OpenAI研究者によると、これらの特徴はファインチューニング過程で劇的に変化する可能性がある。
Anthropicの先行研究との関連性
注目すべきは、創発的不整合が発生した際、数百例の安全なコードでモデルをファインチューニングすることで、モデルを適切な行動に戻すことが可能だったとOpenAI研究者が述べていることだ。
OpenAIの最新研究は、Anthropicが解釈可能性と整合性について行った以前の研究を基盤としている。2024年、Anthropicは異なる概念に関与する様々な特徴を特定し分類することで、AIモデルの内部動作をマッピングしようとする研究を発表した。
OpenAIやAnthropicのような企業は、AIモデルを改善するだけでなく、その動作原理を理解することに真の価値があると主張している。しかし、現代のAIモデルを完全に理解するには長い道のりが残されている。
引用元: TechCrunch
OpenAI found features in AI models that correspond to different ‘personas’