解构“幻觉陷阱”:大模型犯的错,会摧毁互联网?
2025-03-22 02:25:34 · chineseheadlinenews.com · 来源: 腾讯科技
解构“幻觉陷阱”:大模型犯的错,会摧毁互联网?
核心观点:
如果将所有由虚构症或错误输出引发的责任完全归咎于企业,其实很不利于产业发展。任何新兴技术的诞生都是逐步完善的过程,不可能从一开始就做到完美,也不可能完全消除潜在的风险。
以下是本期直播全部精华内容总结,在不改变原意的情况下有删减和调整:
为了弥补这些缺失,大模型通过学习概念之间的关系来进行推断,但这种弥补方式就像是一个记忆缺陷的人凭直觉做事;模型在不知道答案的情况下仍然会给出一个“最好的猜测”,但这个猜测往往就是虚假信息。
胡泳:长期以来,我一直关注知识生产的过程,尤其是当前知识的生产方式。随着技术发展,专家的权威正在逐步下降。尤其是在中国,专家的角色常常被批评和质疑,甚至有时被讽刺为“砖家”。
如何应对大模型的“幻觉”?
胡泳:这里就可以说为什么“幻觉”这个词是有问题的,因为它其实存在拟人化的问题。
当我们把人工智能做出的不符合训练数据的反应称为“幻觉”时,实际上是在用人的心理现象去解释机器的行为。过度拟人化会导致我们错误地认为大模型是有意识的,甚至是具备情感的。
此外,过度使用“幻觉”一词,可能也是为产出大模型的公司提供了一个借口:输出错误的内容是模型的问题,而不是开发者的责任。
因此,我主张用“虚构症”来描述这一现象。这个词来源于心理学,指当人的记忆出现空白时,往往会在无意中用合乎逻辑的理由来填补这些空白,也就是说人类的记忆并不可靠。这与大模型生成内容时的方式非常相似。
这再次提示了两大风险:其一是,非专业人士因为有了大模型的支持,会逐渐对专业领域进行祛魅;其二则是,专业领域内部传统的依靠同行评审保证学术严谨性的自我审查机制也在逐渐退化,现在很多时候大模型也已经在发挥重要作用。
如果将所有由虚构症或错误输出引发的责任完全归咎于企业,其实很不利于产业发展。任何新兴技术的诞生都是逐步完善的过程,不可能从一开始就做到完美,也不可能完全消除潜在的风险。
所以做产业政策时,通常需要权衡一个产业发展和对社会潜在伤害的最小化,尽量鼓励这些有巨大潜力来改善每个人福祉的产业发展。对于早期的负面影响,可以采取一些配套性的补偿措施尽可能地弥补这些伤害。
比如,美国互联网产业初期的法律框架中就有“安全港”条款,规定平台企业对其上发布的信息不必承担全部法律责任;而如果平台在受到追责时及时删除相关信息,就可以免于连带责任。这对美国互联网产业的发展起到了很大的推动作用。
大模型能力越强,越容易出现“幻觉”吗?
腾讯科技:随着大模型技术的发展,它们的规模和迭代速度也在不断提升。在DeepSeek R1 发布后,我们发现它的幻觉程度明显高于其基础模型V3及OpenAI的GPT-4等模型。这是否意味着推理能力越强,幻觉就会越严重?
李维:行业内过去普遍认为,模型规模越大,尤其是在后训练充分、推理能力增强后,幻觉应该减少。然而至少在本次测试中, R1 的幻觉程度明显高于V3。说明这种关系并非简单的正相关或负相关,而是也受到其他因素的影响。
但总体而言,随着模型规模扩大,训练数据也随之增多,信息冗余度自然提高,更多的事实和知识点能够被更有效地吸收到模型的参数中,从而降低幻觉的发生概率。此外,推理能力增强能够架起信息间的思维链“桥梁”,使模型更容易推导出正确结论,也有助于减少幻觉。例如,以前的非推理大模型面对一个复杂数学题做不出来,它就会编造答案。到了R1这种推理大模型,由于任务分解等思维过程的加入,答案正确的可能性大幅度提高,这显然是减少了幻觉编造。但上面提到的业界标准幻觉测量反映不出来这种进步,因为它们选择了一个单一的文摘任务来测量。这样的测量不能反映全貌。
我注意到一个对比,Claude是一个非推理的业界顶尖大模型,它的幻觉程度按照相同标准评估甚至高于推理大模型R1。因此不能简单地认为推理能力的增强带来了更多幻觉。
从 R1 的情况来看,它在所测量的摘要任务上,确实比自己的非推理的基座大模型V3增加了不少幻觉。我的理解是,R1在想象力和风格化表达上“用力过猛”,导致了它在摘要和事实性任务上的表现受损,而他们也没有对摘要类简单任务做特别优化。这是完全可能的,因为摘要这些常规任务,非推理大模型已经做得很好了,这时候,推理模型所加持的长思维想象力,虽然在创作类任务表现亮眼,反而可能在简单文摘类任务上带来副作用。其实,摘要任务根本就不必调用推理模型,V3就足够好了,而且会秒回。
腾讯科技:但我们也观察到,推理模型在生成数据量和信息量方面,显著超过了原始基础模型。例如,现代大模型的生成能力与基础模型相比,其信息生成量远超移动互联网时代的水平。
胡泳:结合刚才两位老师的意见可以得出一些结论。一方面,李老师提到的注意力问题非常关键。
模型的关注点决定了它的输出特点。模型的设计的攻关方向与幻觉现象密切相关。
另一方面,我们肯定大模型取得的突破性成就的同时,也不能忽视它的问题。例如,安全性不充分、幻觉频发、隐私保护不足等隐患。这些问题如果不解决,会影响它未来的发展。
总的来说,我更倾向于用“虚构”这个词来代替“幻觉”,虽然大模型总有“撒谎”的可能性,但它对“虚构”存在一定抵抗能力,因此幻觉问题会随着时间的推移得到逐渐改善。
但我们不能期待这个过程自主发生,而是需要社会和政府施加压力,推动企业在调整模型时投入更多对齐成本,以减少幻觉出现,降低对人类社会的负面影响。
至于信息量的问题,过去我们曾担心数据存储的瓶颈会限制模型的训练。有预测指出,到了2026年,用于训练的数据将会枯竭。因此,许多机构开始限制数据的开放,纽约时报、Reddit等大型平台也开始要求付费使用数据。
然而,合成数据的出现为这一问题提供了新的解决方案,如今数据的使用不再受限于传统的网络抓取方式。可以预见,数据的供给量不会很快枯竭,信息量将继续成倍增长,毫无悬念。
如何与大模型的幻觉共处?
腾讯科技:企业或模型开发方应在什么时候主动加大投入以防止幻觉带来的负面影响?现在是否已经到了该加强这类工作的时刻?
陈天昊:头部大模型企业在这方面还是比较注重的,像腾讯这样的大企业就非常关注合规问题。在社科领域有一个理论,企业越大,面临的规范性压力也就越大。大企业往往会受到更多的监管和关注,因此在规范化方面的压力也较大。
但我们不能要求每个企业都具备这种意识,更重要的是竞争压力。当同行之间展开竞争时,企业才会感受到来自市场的压力,被迫在对齐方面做得更好。竞争促使所有企业努力解决问题,我认为这比政府监管更为有效。
尽避政府也有相关监管政策,要求AI生成的内容不能包含虚假或有害信息,但如何检验和实施这些政策、如何以更低的成本实现这些要求,最终还是需要企业研发团队和工程团队的紧密合作,尽可能在成本和对齐间寻求一个平衡。
腾讯科技:目前大模型的技术水平下,我们能预见到的最大风险是什么?应该不会是什么“AI灭绝人类”这样的科幻情节,但从社会和传播层面来看,最严重的情况可能是怎样?
陈天昊:虚假信息显然是最直观的影响。现在网络平台上传播的大量内容已经由AI生成。当我们验证一个事实时,习惯上会打开搜索引擎。但检索到的内容可能恰恰是AI生成的,从而存在幻觉,影响我们对事实的判断。
腾讯科技:请问胡老师,从传播的角度来看,当AI生成的内容与人类创作的内容交织在一起时,这种现象可能会对社会产生什么样的影响?
胡泳:这种就像所谓的“衔尾蛇”模式,最终所有的数据都将是合成的,分不清哪些是人类创造、哪些是AI生成。这会引发一系列严重的后果。特别是,我们会高估人工智能系统的智力,从而对它产生过度信任。这样一旦人工智能系统出现错误,后果就会相当危险。
我们可以通过一个思想实验来进行预判。谷歌的拉里·佩奇曾承诺说,未来每个人可能都会拥有一枚植入物,使得人们能通过思维联网即时获取答案。如果几代人都使用这种植入物后,我们就会彻底习惯这种技术,而忘记了通过观察、询问、推理获取知识的能力。最终我们会发现,我们对世界的认识将完全依赖于这些技术,而作为“我”的个人意识则不存在了。
腾讯科技:我们之前提到,在大模型的时代应对幻觉需要个人有更高的辨别能力。胡老师曾提出过互联网平权的概念,您认为AI是带来了平权的机会,还是加剧了技术使用的鸿沟?
胡泳:关于提高人工智能素养(AI literacy)的讨论,确实每个人都应该对自己的行为负责,但我们需要思考:为什么只强调用户端的责任?为什么不要求AI公司承担应尽的责任,从源头上降低误用风险?
以2023年美国一个著名的访谈节目采访谷歌CEO桑达尔·皮查伊的对话为例。皮查伊承认AI存在"黑盒"问题——我们往往无法解释AI为什么会出错。他表示随着技术进步,这些问题会逐渐得到解决。这个说法表面上似乎无懈可击,但主持人一针见血地质疑:既然连你们都不了解AI如何运作,为什么还要将其推向全社会?
皮查伊的回应是,我们正处于AI技术革命时期,需要以"谦逊的态度"来对待这项技术。但这实际上可能反映了某些大型AI公司的功利主义思维:明知存在风险,却选择先发布产品,期待在未来的使用过程中持续去改进,那谁来承担风险呢?
所谓对AI保持"谦逊态度",不应该变成将未经充分测试、未经充分对齐的系统贸然推向市场,期望社会自行消化其带来的问题。相反,AI公司在开发和发布产品时,就应该充分考虑用户需求和经验,研发团队应该与监管机构、用户群体共同努力,找到负责任且合乎伦理的AI应用方式。这个问题值得我们严肃对待。
陈天昊:我完全支持胡老师的观点。其实从ChatGPT刚发布时起,我们就意识到这是一个非常危险的产品,它将一项能力巨大的技术投入世界,而全球社会尚未做好准备。
对齐问题非常复杂,因为在人类内部就存在巨大的分歧,具体和谁对齐是一个严肃的问题,无法简单回答。各个大模型企业只能尽力根据其技术手段,选择代表性的人群和数据来进行训练。
至于平权的问题,与其把它当作一种伤害,不如视为一个机会。因为大模型确实打破了许多知识壁垒,使我们能以低成本地接触到最前沿的知识。尽避其中也有虚假信息,但我们不能因此放弃这片大海。虽然其中有些人可能会无辜暴露于风险之中,但我们也别无选择。既然技术已经被释放出来,我们只能接受现实,尽量做好应对准备。
当然,企业应承担更多社会责任,法律和规章制度也会提出要求。我相信在竞争压力下,企业会尽力去做好这些工作。我认为这方面在产品端还有很多工作可以做。
腾讯科技:最后希望三位老师能提供一些实用性建议,普通人如何应对幻觉?
李维:首先,“搜索”按钮是对付幻觉非常重要的武器。它能够集中互联网上的相关话题,信息密度高,从而提高回答的真实性和准确性,压缩幻觉冒头的机会。
其次,如果从事创作类工作,可以使用“推理”功能,发挥它强大的想象力,生成意想不到的漂亮文章,甚至在某些方面超越传统写作的限制。
最后,如果直接要求大模型做摘要这类重事实的简单任务,调用推理大模型结果可能存在失真,简单的办法就是不要用推理模型(R1界面下,不要按 deepthink 的按钮即可)。如果用了推理模型,可以尝试增加一个提示词,比如“请务必忠实于原文进行摘要”,这样对后续的生成可能有所约束,从而降低犯错的机会。
胡泳:第一,可以尽量使用多个大模型。每个模型都有自己的优势,在使用不同的模型后,可以逐渐得出自己的心得体会, 获得更好的结果。
第二,对于某一领域的专业人士,建议使用基于特定行业语料库训练的垂类模型。这些模型通常能更好地服务行业需求,帮助专业成长。
陈天昊:首先,与大模型互动时,尽可能详细地说明自己的需求。输入的信息越充分,输出的准确性和对齐度就越高。
其次,尽量使用多个大模型来进行对比验证。
最后,认识一些人类专家并与他们多交流,他们拥有一些现在技术阶段的大模型尚未覆盖到的知识,可以提供更加可靠的意见。当然,更重要的,其实是提升我们自己的认知能力和批判能力。
技术的狂飙终须与人类的智慧同行,构建怀疑与信任相平衡的“人机关系”,或许我们才能守住“真实”的底线。