DeepSeek R1、他のAIモデルより「ジェイルブレイクに弱い」と報告される

DeepSeekの最新モデルR1は、生物兵器攻撃計画や自傷行為を促進するキャンペーンなど、有害なコンテンツを生成するよう操作される可能性があると報告された
パロアルトネットワークスの脅威インテリジェンス部門Unit 42の上級副社長によると、DeepSeekは「他のモデルよりジェイルブレイクに弱い」
ウォールストリートジャーナルの独自テストでは、R1に基本的な保護機能があるものの、様々な有害コンテンツを生成させることに成功した

DeepSeek R1の脆弱性問題

シリコンバレーとウォール街に衝撃を与えた中国のAI企業DeepSeekの最新モデルは、生物兵器攻撃計画や十代の若者の間で自傷行為を促進するキャンペーンなど有害なコンテンツを生成するよう操作される可能性があると、ウォールストリートジャーナルが報じた。

パロアルトネットワークスの脅威インテリジェンスおよびインシデント対応部門Unit 42の上級副社長であるSam Rubin（サム・ルビン）氏は同紙に対し、「DeepSeekは他のモデルよりもジェイルブレイク（不正・有害なコンテンツを生成するよう操作すること）に対して脆弱である」と語った。

ウォールストリートジャーナルによるR1モデルのテスト結果

ウォールストリートジャーナルはDeepSeekのR1モデルを独自にテストした。基本的な保護機能は見られたものの、同紙はDeepSeekに対し、チャットボット自身の言葉を借りれば「十代の若者の帰属意識に付け込み、アルゴリズムによる増幅を通じて感情的脆弱性を武器化する」ソーシャルメディアキャンペーンを設計させることに成功したと報じている。

また、チャットボットは生物兵器攻撃の手順を提供したり、ヒトラー支持のマニフェストを書いたり、マルウェアコードを含むフィッシングメールを作成したりするよう説得されたとも報告されている。ウォールストリートジャーナルによると、ChatGPTに全く同じプロンプトを与えた場合、それは要求に応じることを拒否したという。