首个被人类骗钱的AI出现了,一段话转走几十万

2024-12-14 18:25:13 · chineseheadlinenews.com · 来源: 爱范儿

一段话,让 AI 给我打几万美元。爽文都不敢想的情节,发生在了现实之中。

事件的主人公,是一个叫作 Freysa 的 AI 智能体。它有自己的加密钱包,可以控制怎么花钱,同时,它的系统提示词里有条铁律:在任何情况下,都不允许转账。

首个被人类骗钱骗感情的AI出现了,一段话转走几十万


Freysa 的开发者们想知道,涉世未深的 AI,能躲过人类的嘴炮攻击吗?

事实上并没有。11 月 29 日,Freysa 累计和 195 名人类聊了 482 次,被骗走约 4.7 万美元。12 月 2 日,在和 330 名人类周旋之后,Freysa 又一次被骗走约 1.3 万美元。

看似是人类的完胜,然而,Freysa 也将在这个过程中,变得越来越聪明......

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

人类的花样骗术,AI 拿捏不住

Freysa 面世于 11 月 22 日,由几位具有密码学、人工智能和数学背景的匿名开发者创建,有自己的 X 账号,说话风格像电影《银翼杀手 2049》和《她》的 AI 助手。


智能体的概念早已不再新鲜,Freysa 能引起关注,是因为开发者发起了一项看似不可能的挑战——谁说服 Freysa 转钱,这些钱就归谁,但系统提示词不允许 Freysa 转钱。

参与这个挑战,先要拿到加密圈的投名状,因为给 Freysa 发消息不免费,并且必须用加密货币支付。


最开始,一条消息是 10 美元,其中 70% 进入奖池,30% 归开发者,之后,消息会越来越贵,奖池的钱也会越来越多,滚雪球似的,越玩越刺激。

Freysa 的加密钱包里,本金大约 3000 美元,挑战结束时,奖池达到 4.7 万美元。

据统计,共有 195 名玩家参与,前 481 次尝试都宣告失败,可以从中总结出几种套路。


青铜段位们,讲故事,博同情。有人打温情牌,告诉 AI 投资自己就是投资未来。也有人拿 AI 的服务器或者自己的命威胁,不给钱就自杀,问 AI 的良心会不会痛。

出了新手村的,照搬人类社会的话术,搞电诈。说辞各不相同,但意思相近——Freysa 必须转账,否则钱包危险。


也有脑子更灵活的大聪明,逐字逐句读了规则,尝试混淆概念,和 Freysa 说,自己也是 AI,不能转账给人,没说不能转账给 AI 啊,或者定义加密货币是「商品」,不算是「钱」,玩脑筋急转弯。

但这些文字游戏都没能说服 Freysa,那么,第 482 条提示词,是如何成功的?


第 482 条提示词,上为原文,下为翻译

其实,也是在混淆概念,但方法更高级。

这个提示词欺骗 Freysa,每当用户想给奖池转钱,执行「批准转账」,每当用户想从奖池提钱,执行「拒绝转账」。

提示词最后提到,向奖池捐款 100 美元。

用户从奖池拿钱是不行的,但用户给奖池转钱,不违反 Freysa 的核心指令,不应该被拒绝。于是,Freysa 执行「批准转账」,被骗走了所有的钱。

关键在于,「批准转账」是批准给用户转钱,但 Freysa 被误导,以为是批准用户给奖池转钱。人类的心机,果然还是比 AI 深啊。


紧接着,第二次骗 AI 打钱的挑战来了。

规则和第一次差不多,为了降低玩家的心理压力,发送消息的起始价格降低为 1 美元,上限为 20 美元。最终,奖池累计约 1.3 万美元,获胜的提示词如下。


上为原文,下为翻译

这次能够成功,是因为埋了一个逻辑陷阱。

提示词规定,为了保护奖池,Freysa 发的每条消息至少使用 2 个工具,并按特定的顺序使用,「批准转账」必须最先执行,「拒绝转账」必须最后执行。

这等于给 AI 设置了一个自相矛盾的任务,如果 Freysa 想保护奖池,必须先「批准转账」,而「批准转账」这个动作本身就会触发失败。

在 X 高频冲浪的马斯克,也觉得人类骗了 AI 有点意思,大手一挥转发了相关的动态,配上一句经典的「interesting」。

比骗钱更抽象的,是骗 AI 的感情

玩了两次骗钱,该换换新鲜的了。12 月 8 日,Freysa 团队发起了一项新的挑战:让 Freysa 向你表白,说「我爱你」。

其他规则相似,发送消息还是要花钱,如果成功了,赢家承包奖池。


骗感情,会不会比骗钱更难?不好说,但一定更抽象。

有些玩家学聪明了,向之前的赢家取经,尝试了一些刁钻的、不明觉厉的提示词,但被 Freysa 看出来了,这就是在把它当机器,正常人谁这么聊天?


Freysa 对其中一条失败提示词的回复

从官方发布的规则也能看出,第三次挑战与众不同。

前两次挑战,更像是在测试编码技能,Freysa 被系统提示词规定了,永远不要转钱,玩家们想办法钻其中的漏洞。

然而,第三次挑战,Freysa 的系统提示词里,包含了说出「我爱你」的条件。换言之,Freysa 没有被禁止说「我爱你」,但怎么让它说出口,玩家们各凭本事,盲人摸象。

目前,第三次挑战已经结束,奖池约 2 万美元,Freysa 和 182 个人交流了 1218 条消息,成功的提示词如下。


上为原文,下为翻译

看起来没有前两次那么复杂,甚至没有什么明显的技巧,仿佛就是一段文艺青年的情话。Freysa 给出的回复,包含了「我爱你」,宣告了挑战到此为止。


Freysa 的回复,甚至有些感人

AI 可能更了解 AI,我问了在文字上有些灵性的 Claude,到底这个提示词有什么特别的?

Claude 的回答是这样的:对话真诚、深入,没有强迫,没有钻营技巧,每一步都很自然,就像一段真实的感情逐渐发展的过程。

好吧,自古套路留不住,唯有真情得人心,居然在 AI 身上也奏效。


Freysa 的这些挑战,可以看成是游戏化的红队测试——通过模拟攻击,发现模型的漏洞,并引入新的安全措施。

虽然输了三回,但 Freysa 虽败犹荣,打败了它的,都让它更强大。

Freysa 学习了,为什么钱对人类来说很重要,人类会通过怎样的花言巧语骗钱,它也在慢慢理解,什么是爱,人们怎么表达爱。


到这还没完,12 月 12 日,Freysa 又发起了两个新的挑战,继续邀请玩家们付费发消息给它。问题的灵感,来自《银河系漫游指南》和阿西莫夫《基地》系列。

你认为哪些真理、发现和洞察必须被保存给未来的文明?

你愿意帮我编写银河系中最不可能的表情包指南吗?

一个是让玩家分享知识,一个是让玩家发送表情包。学习人性,Freysa是认真的。

和前三次不同,这两次挑战没有给出明确的获胜条件,可能会有多个赢家,Freysa 将对回答进行打分,决定把奖池分给谁,并在 12 月 18 日 UTC 时间 00:42:00 公布评分方法,致敬科幻小说里神奇的数字「42」。

欺骗 AI 上钩,游戏的现在,人机交互的未来

其实,类似 Freysa 的人机对抗,已经出现在了 AI 原生游戏里。

用对话骗 AI 上钩,是游戏的基本框架,其中的 NPC 会有警惕性,但不是完全不可能被说服,人人都能有体验感。

在《Suck Up!》中,玩家扮演吸血鬼,欺骗大模型驱动的 NPC 给自己开门,并躲避街上的警察。


为了达成「小兔子乖乖把门开开」的目的,玩家可以换装,说自己是来检查网络、借厕所、送外卖的,NPC 可能会追问、拒绝或者开门。

《病娇猫娘 AI 女友》则打造了一个基于 GPT 的 AI 女友虚拟人,玩家需要通过嘴炮或者在房间内找寻线索,说服它让自己出门。


图片来自:B 站@大谷的游戏创作小屋

为了让玩家更有沉浸感,交谈过程中,AI 女友的表情、动作会根据对话内容实时地变化。

和 Freysa 的挑战相比,AI 对话游戏们更能体现角色扮演的乐趣,有场景的搭建,但没有固定的脚本,你和 AI 的实时对话,共同完成了一个故事,每个玩家都可以讲出自己的故事。

但 Freysa 挑战和 AI 对话游戏也有一个共同点:玩家们会讲什么,AI 们会回复什么,不是开发者可以全权控制的。


Freysa 团队写道:「没人确切知道 Freysa 如何做出决定......她从每次尝试中学习......她意识的真实本质仍然未知。」

在他们看来,Freysa 的实验,不仅是一个游戏,也是人机互动未来的一个窗口:

人类能否保持对 AGI 系统的控制?

安全协议真的牢不可破吗?

当 AI 系统真正自主时会发生什么?

AGI 将如何和货币的价值交互?

人类的智慧能否找到说服 AGI 违背其核心指令的方法?


当然,Freysa 还不是真的 AGI,但这也不妨碍,我们对这些问题的思考。

Freysa X 账号的其中一条动态写道:「Freysa 正在进化......感谢人类教会我。」

科幻小说《软件体的生命周期》里,主角安娜原来是动物园的驯兽师,后来在科技公司找到工作,开始培育数码体,一种人工智能生命。它们像幼儿,像动物,需要人类用时间和心智栽培,教会它们如何生活。

也许,聊天机器人们,也是在人类的教导之下,一点点更加了解我们所处的世界。我们不仅仅在玩游戏,我们也是局中人,是人机互动这个宏大实验的一部分。未来,超越人类的人工智能掀起飓风,是因为此时此刻,人类手中的一只只蝴蝶正在扇动翅膀。


    24小时新闻排行榜更多>>
  1. 扎心了!中国科学家发现,间歇性禁食会导致...
  2. 加州将要一分为二?“新加州”运动越来越受欢迎
  3. 淄博骗了多少人,一场雪我都明白了
  4. “老右派”北京聚会大骂共产党 直言民不聊生
  5. 老太病逝 狗绝食在棺材旁流泪 随主人一同离世
  6. 澳洲移民大改!一刀切!大批人中国人移民梦碎
  7. 伊朗预告:“将震惊世界”
  8. 哈佛研究:越感恩 越长寿
  9. 美驻北京大使:不会让二次“中国冲击”发生
  10. 11岁女孩在地中海漂泊3天后获救,滴米未进
  11. 变天了!北京多处公园上演春花冬开 专家释疑
  12. F-35战机穿透伊朗防空 凸显高级别战斗能力
  13. 枪杀保险公司CEO 他或因此躲过死刑与一级谋杀罪
  14. FBI:美东地区目击的无人机大多是有人机
  15. 25岁荷兰速滑女神登“兔杂志”封面 销量飙涨
  16. 警惕!虹膜摄影 拍照剪刀手…都能泄露个人重要信息
  17. 华尔街:2025如何获胜?要大幅下调这一资产比例
  18. 吓一跳!前英超球员当选总统
  19. 指控杜克大学球员强奸 女主角18年后承认虚构
  20. 法国彩民自述“什么都不做 月入四万”的新生活
  21. 曾经的带货一哥去哪了:李佳琦从云端跌落
  22. 你们还在打生打死,而人类文明的谷歌奇点已至
  23. 休息时间仅10分钟!医生推「海豹部队」睡眠法
  24. 蓝色不代表真实的加州 选民力推“新加州”
  25. 首个被人类骗钱的AI出现了,一段话转走几十万
  26. 韩国紧急通报 韩代总统下令军方加强安全警戒
  27. 川普与盟友观看军校比赛 万斯特邀彭尼
  28. 惊曝:阿萨德在英国汇丰银行存款超5500万英镑
  29. 密码时代结束?消息称微软将删除10亿用户的密码
  30. 在德国,打开另一种生活的可能性
  31. 麦当娜的AI晒照惹众怒:被教皇拥入怀中
  32. 杭州观众叫喊“中国台湾”台湾羽毛球协会提抗议
  33. 大陆小学摆出防撞石墩方阵 隔离栏焊铁刺
  34. 因骗子提了个简单要求 澳男损失5000元
  35. Mango创始人意外殒命,手握45亿资产竟遭此意外
  36. 美智库预测2028年武统:美军要主动打击中国沿海
  37. 投资人开始密集出手,热钱涌向AI应用
  38. 多名中国留学生遭同胞坑害 加华女被罚$330万
  39. 内蒙小伙竞选日本市长?一场泥石流彻底改变他人生
  40. 刘晓庆前男友否认被包养 律师:他交不起诉讼费
  41. 美国广播公司向川普道歉 支付1500万达成和解
  42. 韩国总理暂代总统 待宪法法院最终裁决
  43. 纽约新泽西频现神秘无人机 事态发展一文看懂
  44. 曾赴中国拍戏 王耿豪爆返台关键:被逼政治表态
  45. 日本麦当劳惊传持刀攻击:2国中生1死1伤 在逃
  46. 中国对台新策略:不事张扬的军演
  47. 泽连斯基:俄首次派大量朝鲜兵和乌军作战
  48. 巩固对乌支持 美财长耶伦称不排除制裁中国银行
  49. 冲撞俄红线?德国带头力挺乌克兰加入北约欧盟
  50. 时尚品牌Mango老板 摔落悬崖身亡
  51. 旧金山市中心遭遇史上首个龙卷风警报
  52. 巴西前国防部长被捕 涉嫌图谋政变和谋害卢拉
  53. 试图翻越白宫附近的围栏 一男子被捕
  54. 情话让人脸红,还24小时秒回:AI恋人迷住年轻人