Perplexity 被曝抓取遭禁网站内容

作者 V科技发布时间 2026年04月25日 16:47 浏览量 3 0 评论

人工智能初创公司 Perplexity 近期被互联网基础设施提供商 Cloudflare 指控，在抓取网站内容时存在规避阻止指令的行为。Cloudflare 的研究报告指出，Perplexity 在尝试访问网页时，疑似采取了隐藏自身身份的手段，以绕过网站的 Robots.txt 文件所设定的访问限制。

Perplexity 等人工智能产品依赖海量网络数据进行训练，而在此过程中，未经授权抓取文本、图像和视频等内容一直是行业内的普遍现象。尽管许多网站已采用 Robots.txt 文件来明确指示搜索引擎和AI公司哪些页面可以被索引，哪些应被排除，但Cloudflare的研究表明，这些标准措施的有效性正面临挑战。根据Cloudflare的分析，Perplexity通过更改其爬虫的“用户代理”（User Agent）以及自治系统网络（ASN）标识，来试图规避这些限制。Cloudflare通过结合机器学习和网络信号，在数万个域名和数百万次请求中识别出了这一特定的爬虫行为。

Perplexity的发言人Jesse Dwyer已对此指控提出反驳，称Cloudflare的报告是“推销”行为，并表示其博客文章中所展示的截图并未显示访问了敏感内容。 Dwyer还声称，Cloudflare提及的爬虫并非Perplexity所有。然而，Cloudflare方面坚持其调查结果，并表示最初注意到这一问题是由于客户反馈称，即使已通过Robots文件阻止，Perplexity的爬虫仍能抓取其网站内容。

V科技点评

Cloudflare的进一步分析揭示，Perplexity不仅使用了其声称的用户代理，还在被明确阻止访问时，转而模拟通用的Google Chrome浏览器进行访问。基于这些发现，Cloudflare已决定将其从验证列表中移除，并采取了新的技术措施来阻止其活动。此次事件发生在Cloudflare近期对AI爬虫持反对态度的背景下，该公司已推出了一个允许网站所有者向AI爬虫收取访问费用的市场。Cloudflare首席执行官马修・普林斯此前曾就AI对互联网商业模式，特别是出版商盈利模式的潜在冲击发出警告。值得注意的是，这并非Perplexity首次面临未经授权抓取的指控，去年《连线》杂志等媒体也曾对此提出过质疑。

此次事件凸显了AI数据抓取与网站内容保护之间的持续博弈，Perplexity的应对策略以及Cloudflare采取的阻止措施，将对未来AI模型的数据获取方式产生重要影响。

Perplexity 被曝抓取遭禁网站内容

暂无评论！成为第一个。

发表回复取消回复

ResearchGOAT

Compaire

Helper Systems: kOS

Onboarding.Study

Perplexity 被曝抓取遭禁网站内容

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复