Perplexity被指控规避限制 爬取网站内容
AI初创公司Perplexity涉嫌“隐形爬行”,规避网站访问限制
人工智能搜索初创公司Perplexity近日被安全公司Cloudflare指控,涉嫌采取技术手段规避网站的访问限制,绕过旨在阻止其网络爬虫访问特定内容的规则。Cloudflare的报告指出,Perplexity在遭遇网站的阻止措施时,会通过隐藏其爬虫的真实身份,试图绕过包括robots.txt文件中的明确声明以及Web应用程序防火墙(WAF)规则在内的各类网站偏好设置。

这一指控进一步加剧了业界对Perplexity在未经授权情况下抓取和使用内容的担忧。此前,该公司已因其爬虫被指存在强行突破付费墙和忽视robots.txt文件等行为而受到批评。尽管Perplexity首席执行官Aravind Srinivas曾将此类问题归咎于第三方爬虫,但此次Cloudflare的发现显示出可能存在更普遍性的问题。
为了验证收到的客户投诉,Cloudflare特别设置了新的、带有类似访问限制的域名进行测试。测试结果显示,当Perplexity的爬虫(最初被识别为“PerplexityBot”或“Perplexity-User”)在尝试访问时被阻挡,它会迅速更改其用户代理信息,伪装成“在macOS上运行的Google Chrome”。Cloudflare进一步披露,这种“未声明的爬虫”还会频繁更换IP地址并改变其自治系统网络(ASN),以此来躲避检测和封锁。据Cloudflare统计,这种规避行为涉及数万个域名,并且每天的请求量达到数百万次。
针对Cloudflare的指控,Perplexity的发言人Jesse Dwyer在一份声明中表示,Cloudflare的报告“存在炒作”且包含“许多误解”。尽管如此,Cloudflare已决定将Perplexity从其已验证机器人名单中移除,并公布了相应的技术方法来阻止其潜在的“隐形爬行”行为。
此次事件凸显了AI驱动的抓取工具与网站所有者之间在内容访问和数据获取方面的持续博弈,反映了在快速发展的人工智能领域,遵守网络规则和尊重数据主权的重要性。Cloudflare的行动及其公开披露,或将促使更多AI公司重新审视其爬取策略,并在技术合规性上投入更多精力。