- CloudflareがPerplexityを告発、明示的にスクレイピング拒否したウェブサイトからも無断でコンテンツ収集と発表
- PerplexityがUser AgentとASN変更でアイデンティティ隠蔽、macOS Chrome偽装でRobots.txt制限を回避
- 数万ドメインで1日数百万リクエストの大規模活動を確認、機械学習とネットワーク信号で特定
- Perplexity広報は「セールスピッチ」と反論、過去にもWiredなどメディアからコンテンツ盗用疑惑
Cloudflareが明らかにしたPerplexityの無断スクレイピング
インターネットインフラプロバイダーのCloudflareによると、AIスタートアップのPerplexityは明示的にスクレイピングを拒否しているウェブサイトからコンテンツをクロールおよびスクレイピングしている。
Cloudflareは月曜日、AIスタートアップがブロックを無視し、クロールとスクレイピング活動を隠蔽しているのを観察したとする調査を発表した。ネットワークインフラの巨人は、「ウェブサイトの設定を回避しようとする試み」でウェブページをスクレイピングしようとする際にPerplexityがアイデンティティを隠蔽していると非難したと、Cloudflareの研究者は書いている。
Robots.txt回避の技術的手法
Perplexityが提供するようなAI製品は、インターネットから大量のデータを取り込むことに依存しており、AIスタートアップは製品を機能させるために長い間、許可なしにインターネットからテキスト、画像、動画を何度もスクレイピングしてきた。最近では、ウェブサイトが検索エンジンやAI企業にどのページがインデックス化でき、どのページがそうでないかを指示するウェブ標準Robots.txtファイルを使用して反撃を試みているが、これまでのところ結果はまちまちだ。
Cloudflareによると、Perplexityはボットの「ユーザーエージェント」(デバイスとバージョンタイプでウェブサイト訪問者を識別する信号)を変更し、自律システムネットワーク(ASN)(基本的にインターネット上の大きなネットワークを識別する番号)を変更することで、これらのブロックを意図的に回避しているようだ。
「この活動は数万のドメインと1日数百万のリクエストで観察された。我々は機械学習とネットワーク信号の組み合わせを使用してこのクローラーをフィンガープリントすることができた」とCloudflareの投稿は述べている。
Perplexity側の反論と過去の疑惑
Perplexityの広報担当者Jesse Dwyer(ジェシー・ドワイヤー)氏は、Cloudflareのブログ投稿を「セールスピッチ」として一蹴し、TechCrunchへのメールで投稿内のスクリーンショットは「コンテンツにアクセスされていないことを示している」と付け加えた。フォローアップメールで、Dwyerは、Cloudflareブログで名前が挙げられたボットは「我々のものでさえない」と主張した。
Cloudflareは、顧客がRobotsファイルにルールを追加し、Perplexityの既知のボットを特別にブロックした後でも、Perplexityが自分のサイトをクロールしスクレイピングしているとの苦情を受けて、最初にこの行動に気づいたと述べた。Cloudflareはその後、チェックのためのテストを実行し、Perplexityがこれらのブロックを回避していることを確認したと述べた。
Chrome偽装による回避手法の詳細
Cloudflareによると、「我々は、Perplexityが宣言されたユーザーエージェントだけでなく、宣言されたクローラーがブロックされた際にmacOS上のGoogle Chromeを偽装することを意図した汎用ブラウザも使用していることを観察した。」
同社はまた、Perplexityのボットを検証済みリストから除外し、それらをブロックする新しい技術を追加したと述べた。
CloudflareのAIクローラー対策強化
Cloudflareは最近、AIクローラーに対して公的な立場を取っている。先月、Cloudflareはウェブサイト所有者と発行者がサイトを訪問するAIスクレーパーに料金を請求できるマーケットプレイスの開始を発表した。CloudflareのCEOであるMatthew Prince(マシュー・プリンス)氏は当時、AIがインターネット、特に発行者のビジネスモデルを破綻させていると警鐘を鳴らした。昨年、CloudflareはAI訓練のためにウェブサイトをスクレイピングするボットを防ぐ無料ツールも開始した。
過去から続く無断スクレイピング疑惑
これは、Perplexityが無許可でのスクレイピングで非難される初回ではない。
昨年、Wiredなどのニュースアウトレットは、Perplexityが彼らのコンテンツを盗用していると申し立てた。数週間後、PerplexityのCEOであるAravind Srinivas(アラビンド・スリニバス)氏は、Disrupt 2024カンファレンスでのTechCrunchのDevin Coldewey(デビン・コールドウェイ)氏とのインタビューで、同社の盗用の定義を提供するよう求められた際、即座に回答することができなかった。
AI業界のデータ収集倫理問題
今回のCloudflareによるPerplexity告発は、AI業界全体が直面しているデータ収集の倫理的・法的問題を浮き彫りにしている。AI企業が高品質なモデルを構築するために大量のデータを必要とする一方で、コンテンツ作成者や発行者の権利をどう保護するかは重要な課題となっている。
特に注目すべきは、PerplexityがRobots.txtという業界標準の制限を意図的に回避していたとされる点だ。User AgentやASNの変更によるアイデンティティ隠蔽は、技術的には可能でも倫理的に疑問視される行為である。
AI検索サービスの信頼性への影響
Perplexityは「AIによる検索」を標榜するサービスとして注目を集めてきたが、今回の疑惑は同社の信頼性に大きな打撃を与える可能性がある。特に、過去のコンテンツ盗用疑惑に加えて、CEOが「盗用の定義」について明確に答えられなかった経緯を考えると、企業としての倫理的姿勢が問われている。
CloudflareがPerplexityのボットを検証済みリストから除外し、新しいブロック技術を導入したことは、他のインフラプロバイダーや出版社にも同様の対応を促す可能性がある。これにより、Perplexityのデータ収集能力が大幅に制限される恐れがある。
AI企業には、技術革新と既存のコンテンツ創作者の権利保護のバランスを取る責任があり、今回の事案はその重要性を改めて示している。
引用元: TechCrunch
Perplexity accused of scraping websites that explicitly blocked AI scraping