Microsoft、AI学習データの貢献者に対するクレジット方法を模索中

Microsoftが生成AIモデルの学習データに使用された特定の例がモデル出力にどう影響するかを推定する研究プロジェクトを開始
プロジェクトには著名な技術者Jaron Lanier氏が関与、「データの尊厳」概念の実現を目指す
著作権訴訟が増加する中、AIモデルのトレーニングデータ提供者への適切な報酬や認識方法を探る動き

Microsoftの新たな研究プロジェクト

Microsoftが生成AIモデルが作成するテキスト、画像、その他のメディアに対する特定のトレーニング例の影響を推定する研究プロジェクトを立ち上げている。

これは12月に遡る求人リストが最近LinkedInで再流通したことで明らかになった。

研究インターンを求めるこのリストによると、プロジェクトは特定のデータ（写真や書籍など）がAIモデルの出力に与える影響を「効率的かつ有用に推定できる」ような方法でモデルをトレーニングできることを実証しようとするものだ。

「現在のニューラルネットワークアーキテクチャは、その生成物のソースを提供する点で不透明であり、これを変える正当な理由がある」とリストには記載されている。「[その一つは]、将来我々が望むような予見不可能な種類のモデルに特定の価値あるデータを提供する人々へのインセンティブ、認識、そして潜在的な報酬である。将来が根本的に我々を驚かせることを前提としている」

著作権訴訟とAI企業の課題

AI駆動のテキスト、コード、画像、動画、楽曲生成ツールはAI企業に対するいくつかの知的財産権訴訟の中心にある。これらの企業は頻繁に公共ウェブサイトから大量のデータを収集してモデルをトレーニングしており、そのうちの一部には著作権で保護されたものもある。多くの企業はフェアユース（公正使用）の原則が彼らのデータスクレイピングとトレーニング慣行を保護すると主張している。しかし、アーティストからプログラマー、作家に至るまでのクリエイターの多くはこれに同意していない。

Microsoft自身も著作権者からの少なくとも2つの法的挑戦に直面している。

ニューヨーク・タイムズは12月に同テック大手と時折の協力相手であるOpenAIを訴え、両社が何百万もの同紙の記事でトレーニングされたモデルを展開することで同紙の著作権を侵害したと非難した。また、複数のソフトウェア開発者もMicrosoftを提訴し、同社のGitHub Copilot AIコーディングアシスタントが彼らの保護された作品を不法に使用してトレーニングされたと主張している。

データの尊厳と貢献者への適切な報酬

求人リストが「トレーニング時の出所」と表現するMicrosoftの新研究プロジェクトには、Microsoftリサーチの実績ある技術者で学際的科学者のJaron Lanier（ジャロン・ラニア）氏が関与していると伝えられている。2023年4月のニューヨーカー誌の論説で、Lanier氏は「データの尊厳」という概念について書いており、これは彼にとって「デジタルなもの」と「それを作ったことで知られたいと思う人間」を結びつけることを意味していた。

「データの尊厳アプローチでは、大規模モデルが価値ある出力を提供する際に最もユニークで影響力のある貢献者を追跡するだろう」とLanier氏は書いている。「例えば、『油絵の世界で冒険する話す猫の中にいる子供たちのアニメーション映画』をモデルに求めた場合、特定の主要な油絵画家、猫の肖像画家、声優、作家（または彼らの遺産）が新たな傑作の創造に独自に不可欠だったと計算されるかもしれない。彼らは認められ、動機づけられるだろう。彼らはさらに報酬を得るかもしれない」

なお、これを既に試みている企業はいくつか存在する。最近4,000万ドル（約60億円）のベンチャーキャピタルを調達したAIモデル開発企業のBriaは、データ所有者に「全体的な影響力」に応じて「プログラム的に」報酬を与えると主張している。AdobeとShutterstockもデータセット貢献者に定期的な支払いを行っているが、正確な支払い額は不透明な傾向にある。

大手研究所の多くは、出版社、プラットフォーム、データブローカーとのライセンス契約を結ぶ以外に、個別の貢献者への支払いプログラムを確立していない。代わりに著作権者にトレーニングから「オプトアウト」する手段を提供している。しかしこれらのオプトアウトプロセスの一部は煩雑で、将来のモデルにのみ適用され、既にトレーニング済みのものには適用されない。

Microsoftの取り組みの展望と業界への影響

もちろん、Microsoftのプロジェクトは概念実証以上のものにはならないかもしれない。そのような前例はある。昨年5月、OpenAIは同様の技術を開発していると述べ、クリエイターが自分の作品をトレーニングデータに含めるか除外するかを指定できるようにすると言っていた。しかし1年近く経った今でも、そのツールは日の目を見ておらず、社内でも優先事項とは見なされていないことが多い。

Microsoftはここで「倫理的洗浄」を試みているか、自社のAIビジネスを混乱させる規制や裁判所の決定を先回りしようとしているのかもしれない。

しかし、同社がトレーニングデータを追跡する方法を調査しているという事実は、他のAI研究所が最近表明したフェアユースに関する立場を考慮すると注目に値する。Google、OpenAIを含むいくつかの大手研究所は、AIの開発に関連する著作権保護をトランプ政権が弱めることを推奨する政策文書を発表している。OpenAIは明示的に米国政府にモデルトレーニングのためのフェアユースを成文化するよう呼びかけており、これは開発者を煩わしい制限から解放すると主張している。

Microsoftはコメント要請に対して直ちに回答しなかった。

引用元：TechCrunch
Microsoft is exploring a way to credit contributors to AI training data