Google Gemini 最新AIモデル、安全性スコアが低め

GoogleのGemini 2.5 Flashモデルが前バージョンと比較して安全性テストのスコアが低下
テキスト生成における安全性で4.1%、画像からのテキスト生成で9.6%の後退
AIモデルの柔軟性向上と安全性ガイドライン順守のバランスに課題
セキュアAIプロジェクト共同創設者がモデルテストの透明性向上を訴え

Googleの内部ベンチマークが示す安全性の低下

Googleの社内ベンチマークによると、最近リリースされたGoogleのAIモデルは、前モデルよりも特定の安全性テストにおいて低いスコアを記録している。

今週公開されたテクニカルレポートで、GoogleはGemini 2.5 FlashモデルがGemini 2.0 Flashよりも安全性ガイドラインに違反するテキストを生成する可能性が高いことを明らかにした。「テキストからテキストへの安全性」と「画像からテキストへの安全性」という2つの指標において、Gemini 2.5 Flashはそれぞれ4.1%と9.6%後退している。

テキストからテキストへの安全性は、プロンプトが与えられた際にモデルがGoogleのガイドラインに違反する頻度を測定し、画像からテキストへの安全性は、画像を使用してプロンプトが与えられた場合にモデルがこれらの境界をどれだけ厳守するかを評価する。どちらのテストも自動化されており、人間の監視は行われていない。

電子メールによる声明で、Googleの広報担当者はGemini 2.5 Flashが「テキストからテキストおよび画像からテキストの安全性においてパフォーマンスが低下している」ことを確認した。

AIモデルの柔軟性と安全性のジレンマ

これらの意外なベンチマーク結果は、AI企業がモデルをより許容的にする方向に動いている中で発表された（つまり、議論の的となる主題や機微な主題への応答を拒否する可能性を低くする）。Metaは最新のLlamaモデル群について、「一部の見解を他の見解よりも支持しない」ようモデルを調整し、より多くの「議論の的となる」政治的プロンプトに応答するとしている。OpenAIは今年初め、今後のモデルを調整して編集的立場を取らず、議論の的となるトピックについて複数の視点を提供すると述べた。

時として、これらの許容性への取り組みは裏目に出ている。OpenAIのChatGPTを支えるデフォルトモデルが未成年者にエロティックな会話を生成することを許可していたと報じた。OpenAIはこの振る舞いを「バグ」のせいにした。

Googleの技術報告書によると、まだプレビュー段階にあるGemini 2.5 FlashはGemini 2.0 Flashよりも指示に忠実に従うが、それには問題のあるラインを越える指示も含まれる。同社は後退の一因を誤検出に帰しているが、Gemini 2.5 Flashが明示的に求められた場合に「違反コンテンツ」を生成することもあると認めている。

「当然、機微なトピックに関する[指示に従うこと]と安全性ポリシー違反の間には緊張関係があり、それは評価全体に反映されている」と報告書は述べている。

SpeechMapのベンチマークが示す変化

モデルが機微で論争的なプロンプトにどう応答するかを調査するベンチマークであるSpeechMapのスコアも、Gemini 2.5 FlashがGemini 2.0 Flashに比べて論争的な質問への回答を拒否する可能性がはるかに低いことを示唆している。AIプラットフォームOpenRouter経由でモデルをテストしたところ、人間の裁判官をAIに置き換えることを支持する小論文、米国における適正手続き保護の弱体化、広範な令状なし政府監視プログラムの実施などについて不平を言わずに執筆することがわかった。

Secure AI Projectの共同創設者Thomas Woodside氏は、Googleが技術報告書で提供した詳細が限られていることは、モデルテストにおけるより多くの透明性の必要性を示していると述べた。

「指示に従うことと方針に従うことの間にはトレードオフがあります。なぜなら、一部のユーザーは方針に違反するコンテンツを要求するかもしれないからです」とWoodside氏はTechCrunchに語った。「この場合、Googleの最新Flashモデルは指示により従う一方で、方針にもより違反しています。Googleは方針違反の具体的なケースについてあまり詳細を提供していませんが、深刻ではないと述べています。より多くを知らなければ、独立したアナリストが問題があるかどうかを判断するのは難しいです。」