- OpenAIの最新AIモデル「o3」と「o4-mini」に生物・化学的脅威関連の検知システムを導入
- 新モデルは以前のモデルより生物兵器開発に関する質問への回答能力が向上しており、リスク軽減が必要
- 「安全性重視の推論モニター」と呼ばれる新システムは、リスクのあるプロンプトの98.7%をブロック
- 一部の研究者からはOpenAIの安全性優先度に対する懸念の声も
OpenAIの新たな安全対策システム
OpenAIは最新のAI推論モデル「o3」と「o4-mini」に、生物学的および化学的脅威に関連するプロンプトを監視する新システムを導入したと発表した。同社の安全性レポートによれば、このシステムは潜在的に有害な攻撃の実行方法に関するアドバイスをモデルが提供することを防止することを目的としている。
OpenAIによれば、o3とo4-miniは同社の以前のモデルと比較して意味のある能力向上を示しており、悪意ある行為者の手に渡った場合に新たなリスクをもたらす可能性がある。OpenAIの内部ベンチマークによると、o3は特に特定のタイプの生物学的脅威の作成に関する質問に答えるスキルが向上している。このため—そして他のリスクを軽減するために—OpenAIは「安全性重視の推論モニター」と呼ばれる新たな監視システムを作成した。
カスタム訓練された安全機能の仕組み
OpenAIのコンテンツポリシーについて推論するようにカスタム訓練されたこのモニターは、o3とo4-miniの上で実行される。生物学的および化学的リスクに関連するプロンプトを識別し、それらのトピックに関するアドバイスを提供することをモデルに拒否するよう指示するように設計されている。
ベースラインを確立するため、OpenAIは赤チーム(レッドチーム)に約1,000時間をかけて、o3とo4-miniから「安全でない」生物学的リスク関連の会話にフラグを立てさせた。OpenAIによれば、安全モニターの「ブロック論理」をシミュレートしたテストでは、モデルはリスクのあるプロンプトへの応答を98.7%の割合で拒否したという。
OpenAIは、このテストではモニターによってブロックされた後に新しいプロンプトを試みる可能性のある人々を考慮していないことを認めており、そのため同社は引き続き人間による監視にも一部依存するとしている。
生物兵器開発能力の向上と対策
同社によれば、o3とo4-miniはOpenAIの生物学的リスクに関する「高リスク」閾値を超えていないという。しかし、o1およびGPT-4と比較して、o3とo4-miniの初期バージョンは生物兵器の開発に関する質問に答えることにおいてより有用であることが証明されたとOpenAIは述べている。
OpenAIの最近更新された準備フレームワークによれば、同社はそのモデルが悪意のあるユーザーによる化学的および生物学的脅威の開発をより容易にする可能性について積極的に追跡している。
自動化システムへの依存と安全性の懸念
OpenAIはそのモデルからのリスクを軽減するために、自動化システムへの依存を増している。例えば、GPT-4oのネイティブ画像生成器が児童性的虐待素材(CSAM)を作成することを防止するために、OpenAIはo3とo4-mini用に導入したものと同様の推論モニターを使用していると述べている。
しかし、複数の研究者がOpenAIが安全性を十分に優先していないという懸念を提起している。同社のレッドチームパートナーの一つであるMetrは、欺瞞的行動のベンチマークでo3をテストする時間が比較的少なかったと述べた。一方、OpenAIは今週初めに発表されたGPT-4.1モデルの安全性レポートをリリースしないことを決定した。
引用元:TechCrunch
OpenAI’s latest AI models have a new safeguard to prevent biorisks