PerplexityがAIスクレイピング明示拒否サイトからも無断収集、Cloudflareが告発

CloudflareがPerplexityを告発、明示的にスクレイピング拒否したウェブサイトからも無断でコンテンツ収集と発表
PerplexityがUser AgentとASN変更でアイデンティティ隠蔽、macOS Chrome偽装でRobots.txt制限を回避
数万ドメインで1日数百万リクエストの大規模活動を確認、機械学習とネットワーク信号で特定
Perplexity広報は「セールスピッチ」と反論、過去にもWiredなどメディアからコンテンツ盗用疑惑

Cloudflareが明らかにしたPerplexityの無断スクレイピング

インターネットインフラプロバイダーのCloudflareによると、AIスタートアップのPerplexityは明示的にスクレイピングを拒否しているウェブサイトからコンテンツをクロールおよびスクレイピングしている。

Cloudflareは月曜日、AIスタートアップがブロックを無視し、クロールとスクレイピング活動を隠蔽しているのを観察したとする調査を発表した。ネットワークインフラの巨人は、「ウェブサイトの設定を回避しようとする試み」でウェブページをスクレイピングしようとする際にPerplexityがアイデンティティを隠蔽していると非難したと、Cloudflareの研究者は書いている。

Robots.txt回避の技術的手法

Perplexityが提供するようなAI製品は、インターネットから大量のデータを取り込むことに依存しており、AIスタートアップは製品を機能させるために長い間、許可なしにインターネットからテキスト、画像、動画を何度もスクレイピングしてきた。最近では、ウェブサイトが検索エンジンやAI企業にどのページがインデックス化でき、どのページがそうでないかを指示するウェブ標準Robots.txtファイルを使用して反撃を試みているが、これまでのところ結果はまちまちだ。

Cloudflareによると、Perplexityはボットの「ユーザーエージェント」（デバイスとバージョンタイプでウェブサイト訪問者を識別する信号）を変更し、自律システムネットワーク（ASN）（基本的にインターネット上の大きなネットワークを識別する番号）を変更することで、これらのブロックを意図的に回避しているようだ。

「この活動は数万のドメインと1日数百万のリクエストで観察された。我々は機械学習とネットワーク信号の組み合わせを使用してこのクローラーをフィンガープリントすることができた」とCloudflareの投稿は述べている。

Perplexity側の反論と過去の疑惑

Perplexityの広報担当者Jesse Dwyer(ジェシー・ドワイヤー)氏は、Cloudflareのブログ投稿を「セールスピッチ」として一蹴し、TechCrunchへのメールで投稿内のスクリーンショットは「コンテンツにアクセスされていないことを示している」と付け加えた。フォローアップメールで、Dwyerは、Cloudflareブログで名前が挙げられたボットは「我々のものでさえない」と主張した。

Cloudflareは、顧客がRobotsファイルにルールを追加し、Perplexityの既知のボットを特別にブロックした後でも、Perplexityが自分のサイトをクロールしスクレイピングしているとの苦情を受けて、最初にこの行動に気づいたと述べた。Cloudflareはその後、チェックのためのテストを実行し、Perplexityがこれらのブロックを回避していることを確認したと述べた。

Chrome偽装による回避手法の詳細

Cloudflareによると、「我々は、Perplexityが宣言されたユーザーエージェントだけでなく、宣言されたクローラーがブロックされた際にmacOS上のGoogle Chromeを偽装することを意図した汎用ブラウザも使用していることを観察した。」

同社はまた、Perplexityのボットを検証済みリストから除外し、それらをブロックする新しい技術を追加したと述べた。

CloudflareのAIクローラー対策強化

Cloudflareは最近、AIクローラーに対して公的な立場を取っている。先月、Cloudflareはウェブサイト所有者と発行者がサイトを訪問するAIスクレーパーに料金を請求できるマーケットプレイスの開始を発表した。CloudflareのCEOであるMatthew Prince(マシュー・プリンス)氏は当時、AIがインターネット、特に発行者のビジネスモデルを破綻させていると警鐘を鳴らした。昨年、CloudflareはAI訓練のためにウェブサイトをスクレイピングするボットを防ぐ無料ツールも開始した。

過去から続く無断スクレイピング疑惑

これは、Perplexityが無許可でのスクレイピングで非難される初回ではない。

昨年、Wiredなどのニュースアウトレットは、Perplexityが彼らのコンテンツを盗用していると申し立てた。数週間後、PerplexityのCEOであるAravind Srinivas(アラビンド・スリニバス)氏は、Disrupt 2024カンファレンスでのTechCrunchのDevin Coldewey(デビン・コールドウェイ)氏とのインタビューで、同社の盗用の定義を提供するよう求められた際、即座に回答することができなかった。