Meta社員が著作権コンテンツのAI学習利用を内部で議論、裁判資料で明らかに

Meta社員が、法的に問題のある著作権コンテンツでAIモデルを学習させることについて内部で議論していたことが明らかになった
個別のライセンス契約を避け、電子書籍を小売価格で購入して学習データセットを構築する案が議論されていた
Meta AIチームの幹部らは、著作権侵害で訴訟を抱える「Libgen」の使用を検討し、使用事実を公表しない方針も議論
Meta側は著作権で保護された作品、特に書籍を用いたモデルの学習は「フェアユース」に該当すると主張している

内部文書から明らかになった著作権コンテンツの使用議論

木曜日に開示された裁判資料によると、Meta社員は数年にわたり、法的に疑問のある手段で入手した著作権作品を同社のAIモデルの学習に使用することを社内で議論していたことが明らかになった。

この資料は、米国の裁判所で審理中の多くのAI著作権紛争の一つ、Kadrey対Meta訴訟の原告側が提出したものだ。被告のMetaは、特に書籍などの知的財産権で保護された作品によるモデルの学習は「フェアユース」に該当すると主張している。一方、Sarah Silverman（サラ・シルバーマン）氏とTa-Nehisi Coates（タ・ネイシ・コーツ）氏を含む原告らは、これに異議を唱えている。

Meta社員間の内部チャットの詳細

資料によると、2023年2月のチャットで、MetaのリサーチエンジニアXavier Martinet（グザビエ・マルティネ）氏は「許可を求めるのではなく、許しを請う方針で」と述べ、電子書籍を小売価格で購入してトレーニングセットを構築することを提案した。他の社員が著作権で保護された無許可の資料の使用が法的な異議申し立ての根拠となる可能性を指摘した後も、Martinet氏は「無数のスタートアップがすでに海賊版の書籍を使用している可能性が高い」と主張を続けた。

同じチャットで、MetaのLlamaモデル研究チームのシニアマネージャーMelanie Kambadur（メラニー・カンバドゥル）氏は、文書ホスティングプラットフォームのScribdなどとライセンス契約の交渉中であることに言及しつつ、「公開データ」のモデル学習には依然として承認が必要だが、Metaの法務チームは以前より「保守的でなくなっている」と指摘した。

Libgenの使用検討と対策

資料によると、別の業務チャットでカンバドゥル氏は、Metaがライセンスを取得する可能性のあるデータソースの代替として、出版社の著作権作品へのアクセスを提供する「リンクアグリゲーター」Libgenの使用を検討していた。Libgenは何度も訴訟を起こされ、閉鎖を命じられ、著作権侵害で数千万ドルの罰金を科されている。

Meta AI製品管理ディレクターのSony Theakanath（ソニー・テアカナス）氏は、Meta AI担当副社長のJoelle Pineau（ジョエル・ピノー）氏宛のメールで、Libgenは「あらゆるカテゴリーでSOTA（最先端）の数値を達成するために不可欠」と述べた。また、法的リスクを軽減するための「対策」として、「明らかに海賊版/盗用と表示されている」データをLibgenから削除し、使用事実を公表しないことを提案した。

Metaの対応とデータ不足の課題

2024年3月のチャットでは、MetaのAI組織の製品管理ディレクターChaya Nayak（チャヤ・ナヤク）氏が、同社のモデルに十分な学習データを確保するため、Quoraのコンテンツやライセンス取得済みの書籍、科学論文を使用しないという過去の決定を「覆す」ことを検討していると述べた。Nayak氏は、FacebookやInstagramの投稿、Metaプラットフォームの動画から文字起こしされたテキスト、Meta for Businessのメッセージといった、Metaの一次データセットだけでは不十分だとし、「より多くのデータが必要」と述べた。