OpenAIが有料のオライリー書籍でAIモデルを訓練したと研究者らが示唆

OpenAI ChatGPT

  • AIウォッチドッグ組織の新論文がOpenAIの著作権侵害の疑いを指摘
  • OpenAIのGPT-4oが有料のオライリーメディア書籍を使用した可能性
  • 特別な検出方法でAIモデルのトレーニングデータを分析
  • オライリーメディアCEOのティム・オライリー氏も論文の共著者

OpenAIへの新たな著作権侵害疑惑

OpenAIは多くの関係者から許可なく著作権で保護されたコンテンツでAIを訓練したとして非難されてきた。今回、AIウォッチドッグ組織による新たな論文が、同社がライセンスを取得していない非公開の書籍に、より高度なAIモデルの訓練においてますます依存していたという深刻な告発を行った。

AIモデルは本質的に複雑な予測エンジンだ。書籍、映画、テレビ番組などの大量のデータで訓練され、パターンと単純なプロンプトから推論する新しい方法を学習する。モデルがギリシャ悲劇についてのエッセイを「書く」とき、またはジブリスタイルの画像を「描く」とき、それは単に膨大な知識から近似値を引き出しているだけであり、新しいものを生み出しているわけではない。

AIディスクロージャープロジェクトの調査結果

2024年にメディア界の大物Tim O’Reilly(ティム・オライリー)氏と経済学者Ilan Strauss(イラン・ストラウス)氏によって共同設立された非営利団体「AIディスクロージャープロジェクト」による新論文は、OpenAIが有料のオライリーメディアの書籍でGPT-4oモデルを訓練した可能性が高いという結論を導き出した。(オライリー氏はオライリーメディアのCEOである。)

ChatGPTでは、GPT-4oがデフォルトモデルとなっている。論文によれば、オライリー氏はOpenAIとライセンス契約を結んでいないという。

「OpenAIのより最近の高性能モデルであるGPT-4oは、OpenAIの初期モデルであるGPT-3.5 Turboと比較して、有料のオライリー書籍コンテンツを強く認識している…」と論文の共著者は書いている。「対照的に、GPT-3.5 Turboは公開されているオライリー書籍サンプルをより相対的に認識している。」

DE-COP法による検証

この論文では、2024年に学術論文で初めて紹介された「DE-COP」と呼ばれる方法を使用している。これは言語モデルの訓練データに含まれる著作権で保護されたコンテンツを検出するために設計されたものだ。「メンバーシップ推論攻撃」とも呼ばれるこの方法は、モデルが人間が執筆したテキストと同じテキストのAI生成パラフレーズバージョンを確実に区別できるかどうかをテストする。それが可能であれば、モデルが訓練データから事前にそのテキストの知識を持っている可能性を示唆している。

論文の共著者であるオライリー氏、ストラウス氏、AIリサーチャーのスルーリー・ローゼンブラット氏は、GPT-4o、GPT-3.5 Turbo、およびその他のOpenAIモデルが、訓練カットオフ日前後に出版されたオライリーメディアの書籍についての知識を調査したと述べている。彼らは34冊のオライリー書籍から13,962の段落抜粋を使用して、特定の抜粋がモデルの訓練データセットに含まれていた確率を推定した。

GPT-4oの「認識」能力に注目

論文の結果によると、GPT-4oはGPT-3.5 Turboを含むOpenAIの古いモデルよりもはるかに多くの有料オライリー書籍コンテンツを「認識」したという。これは、テキストが人間によって執筆されたかどうかを判断する新しいモデルの能力向上などの潜在的な交絡因子を考慮した後でも同様だと著者らは述べている。

「GPT-4oは、訓練カットオフ日より前に出版された多くの非公開オライリー書籍を[おそらく]認識しており、そのため事前知識を持っている」と共著者らは書いている。

しかし、共著者らは注意深く指摘するように、これは決定的証拠ではない。彼らは自分たちの実験方法が完璧ではないこと、そしてOpenAIがユーザーがChatGPTにコピー&ペーストした有料書籍の抜粋を収集した可能性があることを認めている。

さらに状況を複雑にしているのは、共著者らがGPT-4.5やo3-mini、o1などの「推論」モデルを含むOpenAIの最新モデルコレクションを評価していないことだ。これらのモデルは有料のオライリー書籍データで訓練されていないか、GPT-4oよりも少ない量で訓練された可能性がある。

OpenAIのトレーニングデータ戦略

とはいえ、著作権で保護されたデータを使用してモデルを開発する際の制限緩和を提唱してきたOpenAIが、長い間より高品質なトレーニングデータを求めてきたことは秘密ではない。同社はモデル出力の微調整を支援するためにジャーナリストを雇用するところまで踏み込んでいる。これは業界全体の傾向だ:AI企業が科学や物理学などの分野の専門家を採用し、効果的にこれらの専門家に彼らの知識をAIシステムに取り込ませるのだ。

OpenAIが少なくとも一部のトレーニングデータに対して支払いを行っていることは注目に値する。同社はニュースパブリッシャー、ソーシャルネットワーク、ストックメディアライブラリなどとライセンス契約を結んでいる。OpenAIはまた、著作権者がトレーニング目的で使用してほしくないコンテンツを通知できるオプトアウトメカニズム(完璧ではないが)も提供している。

それでも、OpenAIが米国の裁判所でトレーニングデータの慣行と著作権法の扱いについていくつかの訴訟と戦っている中、オライリーの論文は好ましいものとは言えない。

引用元:TechCrunch
Researchers suggest OpenAI trained AI models on paywalled O’Reilly books

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です