OpenAIのモデルが著作権コンテンツを「記憶」していると新研究が示唆

新研究によると、OpenAIのAIモデルが著作権で保護されたコンテンツを訓練データとして使用した可能性が示唆された
研究者らはモデルが「高い意外性」を持つ単語を正確に予測できるかどうかを検証
GPT-4は人気小説や著作権で保護された電子書籍サンプルの一部を記憶している兆候を示した

新研究が示すOpenAIモデルの著作権コンテンツ記憶

新たな研究によって、OpenAIが少なくとも一部のAIモデルを著作権で保護されたコンテンツで訓練したという申し立ての信憑性が高まった。

OpenAIは現在、著者、プログラマー、その他の権利所有者からの訴訟に巻き込まれている。彼らは同社が書籍やコードベースなどの作品を許可なくモデル開発に使用したと非難している。OpenAIは長らくフェアユース（公正使用）の抗弁を主張してきたが、訴訟の原告らは米国著作権法に訓練データに関する例外規定はないと主張している。

ワシントン大学らの研究方法

ワシントン大学、コペンハーゲン大学、スタンフォード大学の研究者らが共同執筆したこの研究は、OpenAIのようなAPI背後のモデルによって「記憶された」訓練データを識別するための新手法を提案している。

モデルは予測エンジンである。大量のデータで訓練されることで、パターンを学習し、それによってエッセイや写真などを生成できるようになる。出力の大部分は訓練データの逐語的なコピーではないが、モデルの「学習」方法によって、一部は必然的にそうなる。画像モデルでは訓練に使用された映画のスクリーンショットを再現する例が見つかっており、言語モデルではニュース記事を事実上盗用する行為も観察されている。

「高い意外性」を持つ単語による検証手法

この研究の方法は、共著者らが「高い意外性（high-surprisal）」と呼ぶ単語、つまりより大きな作品の文脈において珍しいと目立つ単語に依存している。例えば、「ジャックと私はレーダーが唸る中で完全に静止していた」という文章の中の「レーダー」という単語は、「エンジン」や「ラジオ」などの単語よりも統計的に「唸る」の前に現れる可能性が低いため、高い意外性を持つと考えられる。

共著者らはGPT-4やGPT-3.5などのOpenAIモデルに対して、フィクション書籍やニューヨーク・タイムズの記事から高い意外性を持つ単語を削除し、モデルにマスクされた単語を「推測」させることで、記憶の兆候を調査した。モデルが正確に推測できた場合、訓練中にそのスニペットを記憶した可能性が高いと共著者らは結論付けた。

研究結果と著作権コンテンツの記憶

テスト結果によると、GPT-4はBookMIAと呼ばれる著作権で保護された電子書籍のサンプルを含むデータセット内の書籍など、人気フィクション書籍の一部を記憶していた兆候を示した。また、結果はモデルがニューヨーク・タイムズの記事の一部も記憶していることを示唆したが、その率は比較的低かった。

ワシントン大学の博士課程学生で本研究の共著者であるAbhilasha Ravichander（アビラーシャ・ラヴィチャンダー）氏はTechCrunchに対し、この発見がモデルが訓練された可能性のある「論争のあるデータ」に光を当てたと語った。

「信頼できる大規模言語モデルを持つためには、探索し、監査し、科学的に検証できるモデルが必要だ」とRavichander氏は述べた。「我々の研究は大規模言語モデルを調査するツールを提供することを目指しているが、エコシステム全体でより大きなデータの透明性が必要だ」

OpenAIの著作権データ使用に関する立場

OpenAIは長らく著作権で保護されたデータを使用したモデル開発に関する制限の緩和を主張してきた。同社は特定のコンテンツライセンス契約を結んでおり、著作権所有者が訓練目的での使用を望まないコンテンツにフラグを立てることができるオプトアウトメカニズムを提供しているが、複数の政府にAI訓練アプローチに関する「フェアユース」ルールを法制化するよう働きかけてきた。

引用元：TechCrunch
OpenAI’s models ‘memorized’ copyrighted content, new study suggests