- CloudflareがPerplexity AIのウェブスクレイピング手法を批判し論争が勃発
- 多くのユーザーがPerplexityを擁護、AIエージェントと人間のアクセスの区別について議論
- ボット活動が人間の活動を上回る現状で、ウェブサイト所有者の権利とAI利用者の利便性が対立
- OpenAIとの比較でPerplexityの手法が問題視される一方、第三者サービス利用を主張
Cloudflare CEOのMatthew Prince氏による批判
Cloudflareが月曜日、AI検索エンジンのPerplexityがウェブサイトを密かにスクレイピングし、サイトの特定のブロック方法を無視していると非難した際、これは単純にAIウェブクローラーが暴走したケースではなかった。
多くの人々がPerplexityを擁護した。彼らは、Perplexityがウェブサイト所有者の意向に反してサイトにアクセスすることは議論の余地があるものの、受け入れられると主張した。そして、AIエージェントがインターネットに溢れる中で、この論争は確実に拡大する。ユーザーに代わってウェブサイトにアクセスするエージェントは、ボットのように扱われるべきか、それとも同じリクエストを行う人間のように扱われるべきか。
Cloudflareは数百万のウェブサイトにアンチボットクローリングやその他のウェブセキュリティサービスを提供することで知られている。基本的に、Cloudflareのテストケースは、どのボットにもクローリングされたことのない新しいドメインで新しいウェブサイトを設定し、Perplexityの既知のAIクローリングボットを特別にブロックするrobots.txtファイルを設定し、そのウェブサイトのコンテンツについてPerplexityに質問するというものだった。そして、Perplexityは質問に答えた。
Cloudflareの研究者らは、このAI検索エンジンがウェブクローラー自体がブロックされた際に「macOS上のGoogle Chromeになりすますことを意図した汎用ブラウザ」を使用していることを発見した。Cloudflare CEOのMatthew Prince(マシュー・プリンス)氏はこの研究をX上に投稿し、「一部の『評判の良い』とされるAI企業は、北朝鮮のハッカーのように振る舞う。彼らを名指しし、恥をかかせ、完全にブロックする時だ」と書いた。
Perplexity擁護派の反論
しかし、多くの人々がこれが実際に悪い行為だというPrince氏の評価に異議を唱えた。XやHacker NewsなどのサイトでPerplexityを擁護する人々は、Cloudflareが文書化したように見えるのは、ユーザーがその特定のウェブサイトについて尋ねた際にAIが特定の公開ウェブサイトにアクセスしたことだと指摘した。
「人間である私がウェブサイトをリクエストした場合、コンテンツを表示されるべきだ」とHacker Newsのある人物は書き、「なぜ私の代わりにウェブサイトにアクセスするLLMが、私のFirefoxウェブブラウザとは異なる法的カテゴリに属するのか」と付け加えた。
Perplexityの広報担当者は以前、そのボットは同社のものではないと否定し、Cloudflareのブログ投稿をCloudflareの営業宣伝だと呼んだ。そして火曜日、Perplexityは自らを擁護する(そして一般的にCloudflareを攻撃する)ブログを公開し、その行動は時折利用する第三者サービスによるものだと主張した。
しかし、Perplexityの投稿の核心は、オンラインの擁護者らと同様の訴えを行った。
「自動クローリングとユーザー主導のフェッチングの違いは単に技術的なものではない。オープンウェブ上の情報に誰がアクセスできるかということだ」と投稿は述べた。「この論争により、Cloudflareのシステムが正当なAIアシスタントと実際の脅威を区別するには根本的に不適切であることが明らかになった。」
OpenAIとの比較で浮き彫りになる問題
Perplexityの非難も正確に公正とは言えない。Prince氏とCloudflareがPerplexityの手法を批判する際に使用した論拠の一つは、OpenAIが同じような行動を取らないということだった。
「OpenAIは、これらのベストプラクティスに従う主要なAI企業の例だ」とCloudflareは書いた。「彼らはrobots.txtを尊重し、robots.txtディレクティブやネットワークレベルのブロックを回避しようとしない。そして、ChatGPT Agentは新しく提案されたオープン標準であるWeb Bot Authを使用してhttpリクエストに署名している。」
Web Bot Authは、AIエージェントのウェブリクエストを識別するための暗号化方法の作成を目指すInternet Engineering Task Forceによって開発されている、Cloudflareがサポートする標準だ。
ボット活動が人間を上回る現状
この議論は、ボット活動がインターネットを再構築する中で起こっている。以前報告したように、AIモデルを訓練するために大量のコンテンツをスクレイピングしようとするボットは、特に小規模サイトにとって脅威となっている。
インターネット史上初めて、ボット活動が現在オンラインでの人間の活動を上回っており、先月リリースされたImpervaのBad Botレポートによると、AIトラフィックが50%以上を占めている。その活動の大部分はLLMから来ている。しかし、レポートはまた、悪意のあるボットが現在全インターネットトラフィックの37%を占めていることも発見した。これは持続的なスクレイピングから不正ログイン試行まで、あらゆるものを含む活動だ。
LLMが登場するまで、インターネットは一般的に、ウェブサイトがCAPTCHAやその他のサービス(Cloudflareなど)を使用してほとんどのボット活動をブロックできるし、すべきだと受け入れていた。これは、ボット活動がいかに頻繁に悪意のあるものだったかを考えれば当然だった。ウェブサイトはまた、Googlebotなどの特定の善良な行為者と協力し、robots.txtを通じて何をインデックスしないかをガイドする明確なインセンティブを持っていた。Googleがインターネットをインデックス化し、サイトにトラフィックを送っていたのだ。
検索エンジン利用量の減少予測
現在、LLMはそのトラフィックの増加分を食い尽くしている。Gartnerは、2026年までに検索エンジンの利用量が25%減少すると予測している。現在、人間はウェブサイトにとって最も価値がある時点、つまり取引を行う準備が整った時にLLMからウェブサイトのリンクをクリックする傾向にある。
しかし、テック業界が予測するように人間がエージェントを採用する場合—旅行の手配、夕食の予約、そして私たちの代わりに買い物をするために—ウェブサイトがそれらをブロックすることで自らのビジネス利益を損なうことになるのだろうか。X上での議論は、このジレンマを完璧に捉えていた。
「私がリクエスト/タスクを与えた時、perplexityが私の代わりに任意の公開コンテンツを訪問することを望む!」とある人物がCloudflareがPerplexityを批判したことに対して書いた。「サイトの所有者がそれを望まない場合はどうするのか?彼らはあなたが直接ホームを訪問し、彼らのものを見ることを望んでいる」と別の人物が反論し、コンテンツを作成したサイト所有者がトラフィックと潜在的な広告収入を望んでおり、Perplexityにそれを奪わせたくないことを指摘した。
「これが『エージェンティック・ブラウジング』が実際に機能しない理由だ—人々が考えるよりもはるかに困難な問題だ。ほとんどのウェブサイト所有者は単にブロックするだろう」と3人目が予測した。
引用元:TechCrunch Some people are defending Perplexity after Cloudflare ‘named and shamed’ it