AI爬虫肆虐,OpenAI等大厂不讲武德

2025-04-07 05:25:13 · chineseheadlinenews.com · 来源: 新智元

AI爬虫是互联网最顽固的“蟑螂”,不讲规则、压垮网站,令开发者深恶痛绝。面对这种AI时代的“DDoS攻击”,极客们用智慧反击:或设“神之审判”Anubis,或制造数据陷阱,以幽默和代码让机器人自食其果。这场饱防战,正演变成一场精彩绝伦的网络博弈。

AI网络爬虫是互联网上的“蟑螂”,几乎所有软件开发者都会这样认为的。

“爬虫”是一种网络自动程序,用来浏览互联网、获取网页内容。

而在AI时代,爬虫的威胁到了让开发者不得不封锁掉某个地区所有人的访问。

Triplegangers是一家仅仅由七名员工运营的公司,他们花费十多年时间建立了自称是网络上最大的“人类数字替身”的数据库,即从实际人体扫描得到的3D图像文件。

2025年2月10日,公司CEO Oleksandr Tomchuk突然发现他们公司的电商网站“崩了”。

“OpenAI使用了600个IP来抓取数据,日志还在分析中,可能远不止这些”,Tomchuk最终发现,导致他们网站崩溃的元凶竟然是OpenAI的爬虫机器人。

“他们的爬虫正在压垮我们的网站,这就是一次DDoS攻击!”

OpenAI没有回应此次事件,该事件过去仅仅不到两个月,但AI爬虫机器人仍然活跃在网络上。

AI爬虫不遵循“古老传统”,阻止他们是徒劳的

其实爬虫最早并不是AI时代为了获取训练语料而诞生的。

早在搜索引擎时代,就已经有“搜索引擎机器人”,那个“古老年代”的机器人还约定俗成的遵循各个网站上会存在的一费棠件——robots.txt。

这个文件告诉了机器人不要爬取哪些内容,哪些内容可以爬取。

但这份传统随着互联网的发展似乎已经被遗忘,爬虫和发爬虫也演变为一场饱防战役。

而到了如今的“大模型时代”,互联网的信息已经被LLMs吞噬一空。

阻止AI爬虫机器人是徒劳的,因为它们会撒谎、更改用户代理、使用住宅IP地址作为代理来骗过网络“防守”。

“他们会不断地抓取你的网站,直到它崩溃,然后还会继续抓取。他们会点击每一个页面上的每一个链接上,一遍又一遍地查看相同的页面”,开发者在帖子中写道。

AI机器人除了“免费”爬取信息外,还会额外增加所爬网站企业的运营费用——在这个云服务的时代,几乎所有被爬取的企业都在云上,大量的爬虫流量不仅无法带来收益,还会增加他们的云服务器账单。

更加无法预料的一点是,对于那些被“白嫖”的网站来说,甚至确切的知道被白嫖了哪些信息。

一些开发者决定开始以巧妙且幽默的方式进行反击。

程序员打造爬虫的“神之墓地”

FOSS开发者Xe Iaso在博客中描述了AmazonBot如何不断攻击一个Git服务器网站,导致DDoS停机。

所以Iaso决定用智慧反击,他构建了一个名为Anubis的工具。

Anubis是一个工作量证明检查的反向代理,请求必须通过该检查才能访问Git服务器。

它阻止机器人,但允许人类操作的浏览器通过。

Iaso关于Anubis工作原理的简单介绍。

本质上,Anubis确保的是“真实人类使用的浏览器”在访问目标网站,而不是AI爬虫——除非这个爬虫伪装的足够“先进”,就像通过图灵测试一样。

有趣的部分是:Anubis是埃及神话中引导死者接受审判的神的名字。

“Anubis称量了你的灵魂(心脏),如果它比一根羽毛重,你的心脏就会被吃掉,然后你就彻底死了”。

这个项目的名字带有讽刺意味,在自由开源软件社区中像风一样传播开来。

Iaso在3月19日将其分享到GitHub上,仅几天时间就获得了2000个星标、20位贡献者和39个分支。

用“复仇”的方式防御AI爬虫

Anubis的迅速流行表明Iaso的痛苦并非个例。

事实上,还有很多故事:

SourceHut的创始人兼CEO Drew DeVault描述说,他每周要花费“20% 到 100% 的时间来大规模缓解过于激进的 LLM 爬虫”,并且“每周经历数十次短暂的服务中断”。

Jonathan Corbet,一位著名的FOSS开发者,他运营着Linux行业新闻网站 LWN,警告称他的网站正受到“来自 AI 抓取机器人的 DDoS 级别的流量”影响而变慢。

Kevin Fenzi,庞大的Linux Fedora项目的系统管理员,表示AI抓取机器人变得如此激进,他不得不封锁整个巴西的访问。

除了像Anubis一样“衡量”网络请求者的灵魂外,其他开发者认为复仇是最好的防御。

几天前在Hacker News上,用户xyzal建议用“大量关于喝漂白剂好处的文章”或“关于感染麻疹对床上表现的积极影响的文章”来加载robots.txt禁止的页面。

这样AI爬虫获取的信息都是这种大量且无用的“替代品”。

“我们认为需要让机器人访问我们的陷阱时获得负的效用值,而不仅仅是零价值”,xyzal 解释说。

一月份,一位名为Aaron的匿名创作者发布了一个名为Nepenthes的工具,其目的正是如此。

它将爬虫困在一个无尽的虚假内容迷宫中,无法像爬虫“主人”返回任何信息。

而作为网友心目中的“赛博菩萨”的Cloudflare,也许是提供多种工具来抵御AI爬虫的最大商业玩家,上周发布了一个名为AI Labyrinth的类似工具。

它的目的是“减慢、迷惑并浪费不遵守禁止爬取指令的AI爬虫和其他机器人的资源”,Cloudflare 在其博客文章中描述道。

“当AI爬虫跟随这些链接时,它们会浪费宝贵的计算资源处理无关内容,而不是提取合法网站数据。这大大降低了它们收集足够有用信息以有效训练模型的能力”。

相比起反击,另一种观点是“Nepenthes有一种令人满意的正义感,因为它向爬虫提供无意义的内容并污染它们的数据源,但最终Anubis是对网站有效的解决方案”。

拒绝或者反击也许都不是最佳的途径。

DeVault也公开发出了一则诚恳的请求,希望有一个更直接的解决办法:“请停止将LLMs或AI图像生成器任何这类垃圾合法化。恳求停止使用它们,停止谈论它们,停止制造新的,就这么停下”。

但是,想让LLM厂商主动停止爬虫这种情况的可能性几乎为零。

毕竟AI的“智能”都来自于不断“吞噬”互联网上的各种数据和信息。

不论是给禁止AI爬虫访问网站、给AI“投喂垃圾”还是将AI爬虫拉入“无线虚空”。

开发者们,尤其是在开源软件领域,正在用智慧和“极客幽默”进行反击。

如果你是网站管理者和开发者,你会如何“出招”?


    24小时新闻排行榜更多>>
  1. 中国这个高教大省,还在“拼命”建大学
  2. 对等关税致全球股市狂泻 川普儿子1句话指点各国
  3. 全美近50万磅早餐三明治被召回
  4. 全球股市暴跌 市场押注美联储速降息救市
  5. “群聊门”调查:华尔兹被苹果手机坑了?
  6. 纽约时报:华尔街准备迎接暴跌后的更多混乱
  7. 深圳一汽车撞路摊致多人死伤 通报遭质疑
  8. 红朝爱国贼闷声发大财 10万亿存在哪?
  9. 中国白酒市场内卷 酒企盯上婚宴市场
  10. 川普:中国因关税问题破坏TikTok交易
  11. 金饰价格波动 中国南北市场“冰火两重天”
  12. 高盛再度上调美国衰退概率
  13. 这个周末,华尔街“无眠”
  14. 上海时尚夜:张柏芝变化大到认不出
  15. 川普再喊“关税超棒”!已替美国带来数百亿收入
  16. 【唐青看时事】川普破釜沉舟 北京六大误判
  17. 广东公司停接美订单 江苏电商:中共四面楚歌
  18. “完美网红”房琪翻车了?
  19. 华人入境若签署这份表格 恐被遣返 绿卡也会丧失
  20. 【直播】美众院会议讨论“禁止流氓裁决法案”
  21. 【纪元焦点】与川普硬杠 中共自断生路?
  22. 万斯用词“中国乡巴佬” 引中媒愤怒:如此恶毒
  23. 习参加植树和小学生共抬半桶水 引猜测
  24. 泽连斯基:普京拒绝停火,美方一言不发
  25. 川普扬言再课中国50%关税 白宫:累计将达104%
  26. 微软回应“停止在中国运营传闻”
  27. 川普:除非北京取消关税 否则终止所有谈判
  28. 川普对等关税 致美国房市6大现状
  29. 中共刚密会商对策 川普突推50%关税打乱部署
  30. 川普政府动议遭驳回 须接回遭遣返萨国男子
  31. 封死中国产品洗产地 专家:中国没自己想像能承受打击
  32. “说走就走”大陆医生:多种致命肺病比肺癌凶猛
  33. 中共政局极像推背图46像 谁在主导军队大清洗?
  34. 资深飞行员目击神秘飞行物 至今无解
  35. 中共对美“掀桌子” 报复性关税后果有多严重?
  36. 到底是“农民有地”,还是“地有农民”?
  37. 中核集团招聘八千人收逾百万份简历 引热议
  38. 中国A股市场遭遇重创 创年内最大跌幅
  39. 川普的交易思维与普京的“胜利理论”
  40. 马赫罕见称赞川普:他具备独特政治天赋
  41. 关税战的“风暴眼”:美国科技股
  42. 大西洋月刊:只有一种方法可以理解川普的关税
  43. 北京报复激怒川普 撂狠话对中关税拟提高至50%
  44. 川普关税政策失算?多家欧洲媒体看好中共趁势逆转胜
  45. 帕金森病早期4个前兆 50岁以上要警觉
  46. AI爬虫肆虐,OpenAI等大厂不讲武德
  47. 燃油车生死存亡,谁来接盘
  48. 川普加征中国50%关税达104% 学者:对中实质经济宣战
  49. 中国经济大崩溃!白领倒贴钱上班!深圳也完了!
  50. 伊朗肃清投降派,对美国摊牌
  51. 四川一商店将200元一箱牛奶卖到6000元
  52. 川普:“是中国毁了我们”!
  53. 中远海控预计Q1净利润同比增72%
  54. 民众存钱 银行“抢钱”吃本金 深圳女转账20万 银行报警
  55. 图恩:限制川普关税权力的法案没前途
  56. 纳瓦罗:川普的关税将修复破败的国际贸易体系
  57. The Lettermen乐队亚市登场
  58. 中国女子逾期居留被拘 边境巡逻站自缢身亡
  59. 白宫官员辩护:超50个国家提出谈判
  60. 美国与全球"经济衰退"机率飙到60%!金融圈紧急示警