Perplexity 被曝抓取遭禁网站内容
人工智能初创公司 Perplexity 近期被互联网基础设施提供商 Cloudflare 指控,在抓取网站内容时存在规避阻止指令的行为。Cloudflare 的研究报告指出,Perplexity 在尝试访问网页时,疑似采取了隐藏自身身份的手段,以绕过网站的 Robots.txt 文件所设定的访问限制。
Perplexity 等人工智能产品依赖海量网络数据进行训练,而在此过程中,未经授权抓取文本、图像和视频等内容一直是行业内的普遍现象。尽管许多网站已采用 Robots.txt 文件来明确指示搜索引擎和AI公司哪些页面可以被索引,哪些应被排除,但Cloudflare的研究表明,这些标准措施的有效性正面临挑战。根据Cloudflare的分析,Perplexity通过更改其爬虫的“用户代理”(User Agent)以及自治系统网络(ASN)标识,来试图规避这些限制。Cloudflare通过结合机器学习和网络信号,在数万个域名和数百万次请求中识别出了这一特定的爬虫行为。
Perplexity的发言人Jesse Dwyer已对此指控提出反驳,称Cloudflare的报告是“推销”行为,并表示其博客文章中所展示的截图并未显示访问了敏感内容。 Dwyer还声称,Cloudflare提及的爬虫并非Perplexity所有。然而,Cloudflare方面坚持其调查结果,并表示最初注意到这一问题是由于客户反馈称,即使已通过Robots文件阻止,Perplexity的爬虫仍能抓取其网站内容。
Cloudflare的进一步分析揭示,Perplexity不仅使用了其声称的用户代理,还在被明确阻止访问时,转而模拟通用的Google Chrome浏览器进行访问。基于这些发现,Cloudflare已决定将其从验证列表中移除,并采取了新的技术措施来阻止其活动。此次事件发生在Cloudflare近期对AI爬虫持反对态度的背景下,该公司已推出了一个允许网站所有者向AI爬虫收取访问费用的市场。Cloudflare首席执行官马修・普林斯此前曾就AI对互联网商业模式,特别是出版商盈利模式的潜在冲击发出警告。值得注意的是,这并非Perplexity首次面临未经授权抓取的指控,去年《连线》杂志等媒体也曾对此提出过质疑。
此次事件凸显了AI数据抓取与网站内容保护之间的持续博弈,Perplexity的应对策略以及Cloudflare采取的阻止措施,将对未来AI模型的数据获取方式产生重要影响。