- Anthropic CEOのDario Amodeiが最先端AIモデルの内部動作についての理解不足を指摘するエッセイを発表
- 2027年までにAIモデルの問題の大部分を確実に検出できる体制構築を目標に設定
- AIモデルの思考経路を「回路」として追跡する研究ブレークスルーを達成
- OpenAIやGoogle DeepMindにも解釈可能性研究の強化を呼びかけ
AIの「解釈可能性」をめぐる緊急性
Anthropic CEOのDario Amodei(ダリオ・アモデイ)氏は木曜日、世界をリードするAIモデルの内部動作について研究者がいかに理解していないかを強調するエッセイを発表した。これに対処するため、Amodei氏は2027年までにAIモデルの問題の大部分を確実に検出できるようにするという野心的な目標をAnthropicに設定した。
Amodei氏は今後の課題を認識している。「解釈可能性の緊急性」と題したエッセイで、同CEOはAnthropicがモデルがどのように回答に至るかを追跡する初期のブレークスルーを達成したと述べる一方で、これらのシステムがより強力になるにつれて解読するためにはさらに多くの研究が必要であることを強調している。
「ブラックボックス」解明の重要性
「解釈可能性についてより良い理解がないまま、そのようなシステムを展開することを非常に懸念している」とAmodei氏はエッセイで書いている。「これらのシステムは経済、技術、国家安全保障の中心となり、非常に多くの自律性を持つことができるため、人類がそれらがどのように機能するかを完全に無知であることは基本的に受け入れられないと考えている」。
Anthropicはメカニスティック解釈可能性(機械的解釈可能性)の分野における先駆的企業の一つだ。この分野はAIモデルのブラックボックスを開き、それらがなぜ特定の決定を下すのかを理解することを目指している。テクノロジー業界のAIモデルのパフォーマンスが急速に向上しているにもかかわらず、これらのシステムがどのように決定に至るかについて、我々はまだ比較的わずかな知識しか持っていない。
OpenAIの新モデルにみる理解の限界
例えば、OpenAIは最近、一部のタスクでより良いパフォーマンスを発揮する新しい推論AIモデル、o3とo4-miniを発表したが、同社の他のモデルよりも多くの幻覚(ハルシネーション)を引き起こす。同社はなぜそれが起こるのか分かっていない。
「生成AIシステムが金融文書の要約など何かを行うとき、なぜそれが選択を行うのか—なぜ特定の単語を他の単語より選ぶのか、あるいはなぜ通常は正確であるにもかかわらず時々ミスをするのか—について、具体的または正確なレベルでは全く分かっていない」とAmodei氏はエッセイで述べている。
AIモデルの「回路」研究のブレークスルー
エッセイの中でAmodei氏は、Anthropicの共同創設者であるChris Olah(クリス・オラー)氏がAIモデルは「構築されるというよりも成長する」と述べていることに言及している。言い換えれば、AI研究者はAIモデルの知性を向上させる方法を見つけたが、なぜそれが機能するのかを完全には把握していないのだ。
エッセイの中でAmodei氏は、これらのモデルがどのように機能するかを理解せずにAGI—あるいは彼が「データセンター内の天才国家」と呼ぶもの—に到達することは危険である可能性があると述べている。前回のエッセイでAmodei氏は、テクノロジー業界が2026年または2027年までにそのようなマイルストーンに到達する可能性があると主張したが、これらのAIモデルを完全に理解するまでにはさらに時間がかかると考えている。
AIの「脳スキャン」を目指すAnthropicの長期ビジョン
長期的には、Amodei氏によると、Anthropicは本質的に最先端AIモデルの「脳スキャン」または「MRI」を実施したいという。彼によれば、これらの検査はAIモデルの嘘をつく傾向や権力を求める傾向、またはその他の弱点を含む、幅広い問題を特定するのに役立つという。これを達成するには5年から10年かかる可能性があるが、こうした対策はAnthropicの将来のAIモデルをテストし展開するために必要になるだろうと彼は付け加えた。
Anthropicは同社のAIモデルがどのように機能するかをより良く理解できるようにするいくつかの研究ブレークスルーを達成した。例えば、同社は最近、AIモデルの思考経路を同社が「回路」と呼ぶものを通じて追跡する方法を見つけた。Anthropicは米国のどの都市がどの州に位置するかをAIモデルが理解するのに役立つ回路を特定した。同社はこれらの回路のうちわずかしか発見していないが、AIモデル内には何百万もの回路が存在すると推定している。
業界全体への呼びかけと規制提案
Anthropicは自社で解釈可能性研究に投資してきており、最近では解釈可能性に取り組むスタートアップへの最初の投資を行った。解釈可能性は今日、安全性研究の分野として広く認識されているが、Amodei氏は最終的にAIモデルがどのように回答に至るかを説明することは商業的優位性をもたらす可能性があると指摘している。
エッセイの中でAmodei氏は、OpenAIとGoogle DeepMindに対して同分野での研究努力を増強するよう呼びかけた。この友好的な促しの他に、AnthropicのCEOは、企業が安全性とセキュリティの実践を開示するための要件など、解釈可能性研究を奨励するための「軽いタッチ」の規制を政府が課すよう求めた。エッセイの中でAmodei氏はまた、制御不能なグローバルAIレースの可能性を制限するために、米国は中国へのチップの輸出管理を行うべきだとも述べている。
Anthropicは安全性に対する焦点において常にOpenAIやGoogleとは一線を画してきた。他のテクノロジー企業がカリフォルニア州の物議を醸すAI安全法案SB 1047に反対する一方で、Anthropicは同法案に対して控えめな支持と提言を発表した。この法案は最先端AIモデル開発者に安全性報告基準を設定するものだった。
今回の場合、Anthropicは単にその能力を高めるだけでなく、AIモデルをより良く理解するための業界全体の取り組みを推進しているようだ。
引用元:TechCrunch
Anthropic CEO wants to open the black box of AI models by 2027