要点まとめ
- MetaがAI学習に海賊版の書籍データを使用していたことを訴訟で主張
- 社内から違法性の警告があったが、ザッカーバーグCEOが承認したとされる
- LibGenと呼ばれる3,300万冊以上の書籍を含む海賊版データベースを使用
Meta AIに違法データ使用の経緯
著作者グループによる著作権侵害訴訟の最新の法廷文書で、Meta社のマーク・ザッカーバーグCEOが、社内チームから「違法に入手されたデータ」との警告があったにも関わらず、AI学習用の海賊版書籍の使用を承認していたことが明らかになった。この訴訟は2023年7月、コメディアンのサラ・シルバーマンらが、自身の著作物がMetaのLlama LLMの学習に無断使用されたとして提起したものだ。
訴訟によると、Meta社は2024年12月13日の事実開示期限のわずか2時間前に、「これまでで最も不利な内部文書」を提出した。内部メッセージには、エンジニアたちが企業所有のラップトップで海賊版コンテンツをダウンロードすることへの懸念を示しながらも、AI学習のために著作権情報を系統的に削除していた様子が記録されている。
社内メモには「LibGenのような海賊版データセットの使用が明るみに出れば、規制当局との交渉における立場を損なう可能性がある」との警告が記されていた。しかし、訴訟によれば、Meta社は2024年1月までにトレントネットワークを通じて海賊版コンテンツのダウンロードと配信を続けていたとされる。
MetaのAI戦略への影響
この発表は、MetaのAI戦略にとって重要な時期に発生した。同社はOpenAIやGoogleとのAI競争で、Llama 3.2を最も人気のあるオープンソースLLMとして位置づけ、Meta AIをChatGPTの無料競合として展開している。
AI業界全体への影響
この問題は、AI業界全体に波及する可能性がある。OpenAIやAnthropicも著作権侵害で訴訟を抱えており、生成AIの普及に伴い、テック企業と創作者との間の対立が深まっている。AIモデルの学習における著作権問題について、裁判所の判断が注目されている。
引用元:Decrypt
Zuckerberg Knowingly Used Pirated Data to Train Meta AI, Authors Allege