杨立昆:AI需要学习物理学才能继续进化
2025-03-11 03:25:37 · chineseheadlinenews.com · 来源: 图灵人工智能
内容提要: 杨立昆在This Is World的访谈:AI的未来需要物理学
人工智能现状及未来发展:
当前AI系统在很多方面还很愚蠢,善于操纵语言,但不理解物理世界,缺乏持久记忆、推理和计划能力。
未来AI需要理解物理世界,具备持久记忆、推理和计划能力,可能会因此产生类似恐惧、兴奋等情感。
他不认为人工智能会具备类似人类的愤怒或嫉妒等情感,以及对意识的看法与罗杰·彭罗斯类似,认为意识难以定义和衡量。
要让机器像人类和动物一样学习,需要解决如何训练系统理解复杂的感官输入的问题。
大型语言模型(LLM)依赖于海量文本数据训练,但仅仅依靠文本训练无法实现人类水平的人工智能,需要理解真实世界。
机器学习范式:
监督学习(提供正确答案进行训练)
强化学习(反馈答案好坏,效率低)
自监督学习(捕捉输入数据的内在结构,是当前自然语言理解和聊天机器人的关键)
自监督学习在理解物理世界方面存在局限性。
信息量和熵:
一条消息包含的信息量不是绝对的,取决于接收者的解释方式。
现有的信息度量与特定的信息解释方式相关。
熵(对物理系统状态的无知程度的度量)取决于观察者对该系统的了解程度。
数据及数据库:
全球数据库尚未达到极限,仍有大量未数字化或公开的数据。
不应过分执迷于意识的问题,意识可能是一个定义不明确的副现象。
自由推理和抽象思维:
深度学习的关键在于学习抽象表示。
推理和规划需要拥有寻找问题解决方案的方法。
当前的LLM通过生成大量token序列并筛选的方式进行推理,效率低下。
人类在抽象空间(精神状态)中进行推理,而不是在行动空间中。
我们需要构建能够预测世界将会发生什么,操纵现实,并提前预测我们的行为的后果的系统。
分层规划对智能系统至关重要。
机器人技术:
现有机器人主要用于简单自动化任务,在复杂任务(如自动驾驶)方面仍不成熟。
特斯拉的自动驾驶目标多次延期,可能存在误导。
整合AI和机器人技术,数字化传感器是未来的挑战。
未来的机器人将更加灵活,能够驾驭现实世界的复杂性。
预测未来十年将是机器人时代。
人工智能发展:
人工智能的发展具有非连续性,早期发展缓慢,近年加速。
对DeepSeek等中国模型的看法:开源和开放研究促进全球合作和发展,好点子不分国界。
基础设施和投资:
构建服务数十亿用户的人工智能助手需要庞大的计算基础设施。
大部分投资将用于推理(运行模型),而不是训练模型。
架构和未来方向:
JEPA(联合嵌入预测架构)是一种宏观架构,可以与Transformer等模块结合使用。
与在输入空间中进行预测不同,JEPA侧重于学习输入的抽象表示,并在该表示空间中进行预测。
个人贡献和遗憾:
最出名的是卷积神经网络。
遗憾在于对自监督学习的兴趣起步较晚。
认为反向传播方法效果很好,即使大脑可能不使用。
对AI在医学上的应用:
看好深度学习在医学诊断(特别是成像)方面的应用前景。
欧洲在人工智能竞赛中的位置:
欧洲拥有人才优势,但法规可能阻碍发展。
Yann LeCun简介
杨立昆(Yann LeCun)是一位法国裔美国计算机科学家,在深度学习、计算机视觉、机器人和神经科学领域做出了杰出贡献。他以卷积神经网络(Convolutional Neural Networks,CNN)的开创性工作而闻名,CNN是现代图像识别系统的核心技术。
杨立昆(Yann LeCun)目前是纽约大学教授,也是Meta(原Facebook)的副总裁兼首席人工智能科学家。他在Meta领导着一个庞大的人工智能研究团队,致力于推动人工智能技术的进步,并将其应用于解决各种现实世界的问题。
他曾在多伦多大学师从Geoffrey Hinton,并于1987年获得计算机科学博士学位。之后,他加入了贝尔实验室,在那里他继续从事神经网络的研究工作。他在贝尔实验室期间开发了LeNet-5,这是一个用于手写数字识别的CNN,被广泛认为是现代CNN的雏形。
杨立昆(Yann LeCun)因其在深度学习领域的贡献而获得了多项荣誉,其中包括2018年的图灵奖,与Geoffrey Hinton和Yoshua Bengio共同获得。
访谈全文
杨立昆: 目前,人工智能系统在很多方面都非常愚蠢。我们被它们迷惑,误以为它们很聪明,因为它们可以很好地操纵语言。
主持人: Yann LeCun教授是Meta公司的副总裁,他在那里负责开发世界上最强大的人工智能系统之一。
杨立昆: 我的同事和我一直在努力设计一种新型的人工智能系统,它仍然能够理解物理世界,拥有持久记忆,并且能够推理和计划。这些系统将会拥有情感,比如恐惧或兴奋。
主持人: 他获得了图灵奖,计算机科学领域的最高荣誉,以及伊丽莎白女王二世工程奖。
主持人Matt: 马斯克说,特斯拉将在未来五年内达到5级自动驾驶。
杨立昆: 他过去八年一直在这么说。他说,你们知道,这件事明年就会发生,过去八年他一直在这么说,但显然并没有发生。显然,你不能再相信他了,因为他一直错。他以为他是对的,但结果证明他是错的。
主持人: 或者仅仅是一点点。他的著作获得了近40万次引用,他与诺贝尔奖得主杰弗里·辛顿于2015年合作发表的深度学习论文是科学领域引用次数最多的论文之一。
主持人Matt: 当你看到今天人工智能的发展,日复一日,夜复一夜的进步时,你会感到惊讶吗? 不会,真的不会。
主持人: 采访的主持人是Matt Kowecki博士,一位科学普及者,也是欧盟前数字大使。
主持人Matt: 教授先生,非常荣幸能邀请您来到这里。我的第一个问题是关于您的研究。您在Google Scholar上的论文被引用了50万次。您与杰弗里·辛顿的深度学习研究是如何成为如此具有变革意义的成果的?
杨立昆: 你可能指的是杰夫·辛顿、约书亚·本吉奥和我于2015年在《自然》杂志上发表的一篇论文。这并不是什么新的研究成果。如果你愿意,它基本上算是一份宣言,或者一篇综述论文,旨在告诉广大科学和研究界人士。
有一套新的技术非常好用。这里列出了它在哪些方面表现出色。这就是未来的发展方向。所以,它在某种程度上标志着深度学习的公开开端,或者说大众化。
但实际上,那篇论文里并没有什么新的结果。新的结果和大部分的其他引用都追溯到我上世纪80年代和90年代所做的研究。
主持人Matt: 您还记得那种流行开始的时刻吗? 成为历史上的一个时刻,让你看到“天啊,这是历史上最受欢迎的研究成果之一”。
杨立昆: 实际上,有两次浪潮。发生了两次。第一次是在80年代末,当我们开始使用多层神经网络获得非常好的结果时。我们现在称之为深度学习,用于图像识别等任务。当时,我们无法识别复杂的图像。更多的是简单的图像,比如手写字符之类的。但这效果非常好。当我开始得到这些结果时,我非常兴奋,因为我认为这可能会彻底改变我们进行模式识别的方式,最终改变计算机视觉,甚至更广泛地改变人工智能。
80年代末到90年代中期出现了一波热潮。然后在90年代中期,人们的兴趣消失了,因为我们开发的技术需要大量的数据进行训练。我们只能获得少量好的数据。那时还没有互联网,所以我们只能获得少数几个应用程序的好数据,比如手写识别、字符识别和语音识别,仅此而已。它需要当时非常昂贵的计算机,这是一笔很大的投资。所以人们对这种技术的兴趣在90年代中期逐渐消失了。
人们的兴趣在2000年代末又慢慢上升,并在2013年左右完全爆发。所以2013年是研究界真正意识到深度学习非常有效,并且可以应用于许多不同领域的一个关键年份。从那时起,它一直在飞速发展。此外,2015年也是一个重要的年份。
主持人Matt: 我们今天推动人工智能来匹配人类的能力。我们会拾起人类的流动、愤怒、之类的东西吗?您认为这会发生吗?
杨立昆: 不,我认为... 所以目前,人工智能系统在很多方面都非常愚蠢。我们被它们迷惑,误以为它们很聪明,因为它们可以很好地操纵语言。但它们不理解物理世界。它们实际上没有任何像我们这样的持久记忆。它们无法真正推理,也无法计划。而这些都是智能行为的基本特征。
我的同事和我一直在FAIR和纽约大学从事的一项工作是,设计一种新型的、仍然基于深度学习的人工智能系统,它能够理解物理世界,拥有持久记忆,并且能够推理和计划。我认为,一旦我们成功地围绕这个蓝图构建这些系统,这些系统就会拥有情感。
它们会拥有像恐惧、兴奋或欣快感这样的情感,因为这些都是对结果的预期。这些系统基本上会通过设定一个我们为它们设定的目标来实现目标。我们会给它们要完成的目标,然后它们会试图找出它们可以采取什么样的行动来实现该目标。如果它们能提前预测到这个目标将会实现,这会让它们感到快乐,如果你愿意这么说的话。或者,如果它们预测自己无法实现该目标,它们就不会感到快乐。
在某种程度上,它们会拥有情感,因为它们能够预测它们可能采取的一系列行动的结果。但是,我们不会在它们身上硬性植入任何像愤怒或嫉妒之类的东西。
主持人Matt: 或者意识。
杨立昆: 意识是另一回事。我们真的不知道它是什么。没有真正的定义。没有对它的定义。实际上也没有任何可以告诉我们某物是否有意识的可衡量的东西。例如,即使我们观察动物,我们大概都会同意猿和猴子是有意识的,也许大象和那种类型的动物也是有意识的。
主持人Matt: 罗杰·彭罗斯在我们的采访中也这样说过。所以您可能完全同意他的观点。
杨立昆: 是的。但是狗有意识吗?老鼠有意识吗?界限在哪里?因为我们对它没有一个很好的定义,所以我们真的无法分辨。
主持人Matt: 关于那一年,您说机器学习很烂。有什么改变了吗?当您看到今天的人工智能发展时。
杨立昆: 嗯,我们正在努力开发构建机器学习系统的新方法,以便它们能够像人类和动物一样高效地学习。因为目前情况并非如此。我可以告诉你一些关于过去几十年机器学习如何发展的历史。
机器学习实际上有三种范式。一种叫做监督学习,这是最经典的一种。训练监督学习系统的方法是,假设一个系统旨在识别图像。你给它看一张图片,例如一张桌子的图片,然后你告诉它,“这是一张桌子。”这是监督学习,因为你提供了正确的答案。系统计算其输出,如果它说出的不是“桌子”,那么它会调整其参数,其内部结构,以便它产生的输出更接近期望的输出。如果你不断地对大量的桌子、椅子、汽车、猫和狗的例子这样做,最终系统会找到一种方法来识别你训练它的每一个图像,以及它从未见过的与它训练过的图像相似的图像。这被称为泛化能力。
还有另一种范式,人们认为它更接近于动物和人类的学习方式,称为强化学习。在强化学习中,你不告诉系统什么是正确的答案。你只指出它产生的答案是好是坏。这可以解释一些类型的人类和动物学习。例如,当你试图骑自行车并摔倒时,你就知道你做错了什么。然后你稍微调整一下你的策略,最终学会骑自行车。然而,强化学习效率极低。它适用于训练系统下国际象棋、围棋或扑克,因为系统可以与自己对弈数百万局,并微调其性能。但它在现实世界中效果不佳。例如,如果你想训练一辆汽车自动驾驶,你不会使用强化学习,因为它会撞车数千次。虽然强化学习可以成为训练机器人学习如何抓取东西的解决方案的一部分,但它不是一个完整的答案,并且本身是不够的。
第三种学习形式被称为自监督学习,它推动了近期在自然语言理解和聊天机器人领域的进展。在自监督学习中,你不是训练系统去完成任何特定的任务,而是训练它去捕捉输入数据的内在结构。例如,在文本处理中,你可以取一段文本,通过移除一些词语来破坏它,然后训练一个大型神经网络来预测那些被移除的词语。这种过程的一个特例是,取一段文本,使其最后一个词不可见,然后训练系统去预测那个最后一个词。这就是训练大型语言模型的方法。每个聊天机器人都是以这种方式训练的,尽避技术上可能略有不同,但基本原理就是这样。因此,自监督学习侧重于学习输入的内部依赖关系,而不是训练系统去完成某个特定任务。
这种方法的成功是惊人的,效果非常好。最终你得到的系统似乎真正理解了语言,并且能够理解问题,如果你使用监督学习或强化学习来微调它们,使其能够正确地回答问题。所以,这是业内每个人都在努力的方向。但是,如果你想让系统理解物理世界,这个模型就行不通了。
主持人Matt: 有些东西缺失了。
杨立昆: 是的,只是因为理解物理世界比理解语言要困难得多。我们认为语言是智慧的巅峰,因为只有人类才能操纵语言。但事实证明,语言其实很简单。它之所以简单,是因为它是离散的,是离散符号的序列。字典里只有有限数量的可能词语。
因此,你永远无法训练一个系统来精确地预测下一个词是什么,但你可以训练它来为字典中的每个词生成一个分数,或者为字典中的每个词出现在那个位置的概率。这样你就可以处理预测中的不确定性。
但是,你不能训练一个系统来预测视频中会发生什么。人们尝试过这样做;我尝试过这样做20年。很多人都有这样的想法,如果你能训练一个系统来预测视频中会发生什么,那么这个系统就会隐式地理解世界的底层结构,直觉物理学,以及任何动物和我们作为婴儿时所能理解的一切。
主持人Matt: 所有的物理规律。
杨立昆: 是的,物理直觉。你知道,如果我拿起一个物体然后放手,它就会掉下去。你已经了解到,重力基本上将每个物体吸引向地面。人类婴儿大约在九个月大的时候就能学会这一点,大约需要九个月的时间。
主持人Matt: 也许这是今天人工智能发展的一个自然限制,也就是我们对现实的认知,我们无法取代更多的认知。我们不知道重力是如何产生的,我们也不知道量子世界是如何转变为经典世界的。
杨立昆: 是的,但这是一个更简单的问题,因为你的猫或你的狗可以在几个月内学会重力。猫在这方面真的非常非常擅长。它们可以计划复杂的动作,并且爬上各种东西和跳跃。所以很明显,它们对我们所说的直觉物理学有很好的直观理解。我们还不知道如何用计算机来重现这一点。
造成这种无力的原因是人工智能研究人员所称的莫拉维克悖论的另一个例子。汉斯·莫拉维克是一位机器人专家,他指出,虽然我们可以让计算机下棋和解决数学难题,但我们却很难让它们执行动物可以轻松完成的物理任务,比如操籽田体或跳跃。这突显了一个悖论,即离散对象和符号的空间很容易被计算机操纵,但现实世界对于它们来说仍然过于复杂。
一个很好的可视化方法是比较我们通过视觉或触觉等感官接收到的信息量,与我们可以通过语言获得的信息量。这种差异可能解释了为什么我们有大型语言模型(LLM)和聊天机器人,它们可以通过律师资格考试,解决数学问题,或者撰写令人信服的文本,但我们仍然缺乏家用机器人。我们仍然没有能够完成猫或狗可以完成的任务的机器人,也没有完全自主的L5级自动驾驶汽车。
此外,我们肯定没有能够在约20小时的练习中训练自己驾驶的自动驾驶汽车,就像任何17岁的孩子都可以做到的那样。显然,我们遗漏了一些重要的东西,而我们遗漏的是如何训练一个系统来理解复杂的感官输入,比如视觉。
主持人Matt: 如果我们想让机器像人类和动物一样专业地学习,这是必要的。
杨立昆: 是的。如果我们想要拥有与动物和人类相似智能的机器,拥有常识,也许在某个时候拥有意识和一切,但能够真正地学习复杂世界的复杂结构,我们需要解决这个问题。所以我们一直在努力。
让我给你做一个非常简单的计算。一个典型的大型语言模型是用大约20万亿个token来训练的,也就是20,0000亿个token。token就像一个词,差不多。一个token通常用三个字节表示。所以20或30万亿个token,每个token三个字节,大约是……10的14次方个字节,也就是1后面有14个零,代表了互联网上公开可用的所有文本的总量。我们需要几十万年才能读完这些材料。所以这是一个巨大的信息量。
然而,当我们把这个信息量与我们在生命的前四年通过视觉系统接收到大脑的信息量进行比较时,结果发现它们差不多。在这四年里,一个年幼的孩子总共醒着大约16000个小时。通过视神经进入大脑的信息量约为每秒2兆字节。
经过计算,这也大约是10的14次方个字节。本质上,在一个四年里,一个年幼的孩子处理了和最大的语言模型一样多的信息或数据。这个观察结果突出了一个关键点:我们永远无法通过简单地在文本上训练来实现人类水平的人工智能。我们需要开发能够理解真实世界的系统,而这种理解是非常复杂的。
主持人Matt: 在你的LinkedIn和Facebook上,你把人工智能和熵联系起来。它们之间有什么联系?你写的东西很难理解,所以如果你能用简单一点的方式给我们解释一下,那就太好了。
杨立昆: 好的。这有点困扰我。这里有一个很大的问题,它存在于计算机科学、物理学、信息论以及许多不同领域的许多问题的根源,这个问题就是如何量化信息。一条消息中包含多少信息?
我多次提出的观点是,一条消息中的信息量不是一个绝对量,因为它取决于解释这条消息的人。你能从传感器、消息、别人告诉你的语言等等提取的信息量,取决于你如何解释它。因此,以绝对术语来衡量信息的想法可能是错误的。每一种信息度量都与一种特定的信息解释方式有关。
这大概就是我想表达的观点。这会产生非常深远的影响,因为如果没有绝对的衡量信息的方法,那就意味着物理学中有很多概念并没有真正的客观定义,比如熵。熵是我们对物理系统状态的无知程度的度量,当然,这取决于你对该系统了解多少。
我一直在试图找到好的方法来定义熵、复杂性或相关的信息含量。
主持人Matt: 你不认为我们用来训练AI模型的全球数据库已经到头了吗? 我们已经将100%的数据数字化了。 在2000年,只有25%的数据是数字化的。
杨立昆: 所以我们还差得很远,没有。 还有大量的文本知识尚未被数字化。 也许在很多发达国家,很多东西都已经数字化了,但大多数都不是公开的。 例如,有很多医疗数据不是公开的。 还有很多文化数据、历史数据,在世界上的很多地区,都无法以数字形式访问。
或者即使是以数字形式存在,也是扫描文档的形式,所以它不是文本或其他任何东西。 所以说我们数据库到头了是不对的。 我认为仍然有很多数据存在。
主持人Matt: 这个问题关系到现实的本质,因为例如,我们不知道物质是如何在人脑中转化为意识的,所以我们没有关于它的数据,但也许将来我们会做到。
杨立昆: 嗯,我不认为我们应该执迷于意识的问题。
主持人Matt: 但我认为世界对此很着迷。
杨立昆: 世界上的某些地方对此很着迷。 我相信我们找不到意识的明确定义的原因是我们没有问对问题。
让我给你举个例子。 在18世纪,在17世纪的发现之后,人们了解到视网膜上的图像,你知道,光线通过虹膜和晶状体,在视网膜上形成的图像是倒置的。 当时的人们完全困惑。 即使图像在我们的视网膜上是倒置的,我们怎么会看到的世界是正立的呢? 这对他们来说是一个重要的难题。
现在我们意识到这个问题本身毫无意义。 事实证明,你如何思考你的大脑如何解释图像与图像在你的视网膜上形成的方向无关。 所以,我认为意识有点像这样; 它是我们无法定义的东西。 我们认为它存在,但我们很难抓住它。
主持人Matt: 并会让我们成为个体。
杨立昆: 哦,那不一样。 那是不一样的。 显然,我的意思是,有很多事情让我们彼此不同。 我们有不同的经历,所以我们学习不同的东西,对吧? 我们在不同的环境中工作。
而且,我们的大脑的连接方式也略有不同。 我们每个人都略有不同,这是进化的必然,以确保每个人都是独一无二的。 这至关重要,因为我们是社会性动物。
当同一个部落中的不同人表现出细微的差异时,存在显着的优势; 这意味着他们可以结合他们的专业知识。 如果我们每个人都完全相同,那么人多就没有力量了。 然而,因为我们是不同的,所以由于我们的多样性,我们更强大。
所以那是进化的结果。 这种多样性可以归因于大脑连接方式的略微不同,以及神经递质、激素和其他因素的变化,这些因素共同构成了我们的不同之处。
主持人Matt: 自由推理、抽象思维模型,比如O1怎么样? 我们能从您的实验室期待这样的东西吗?
杨立昆: 从观察中提炼抽象表示的问题是深度学习的关键。 深度学习是关于学习表示的。 事实上,深度学习的主要会议之一被称为国际学习表征会议,它是我和Bengio你共同创建的。 所以这告诉你学习抽象表征这个问题对于人工智能,特别是深度学习来说,是多么的重要。
现在,如果你想让一个系统能够推理,你需要另一组特征。 基本上,推理或规划的行为,在人工智能领域,不仅仅是基于机器学习的人工智能,而是自 1950 年代以来,拥有寻找问题解决方案的方法在许多情况下至关重要。 例如,如果我给你一个城市列表,并要求你提供访问所有这些城市的最短路径,你可能会考虑附近的城市,以尽量减少路径的总距离。 存在一个包含所有可能路径的空间,其中包括城市的所有排列——本质上是访问城市的每一种可能的顺序。 这个空间非常巨大。
算法,例如 GPS 系统中使用的算法,会在此广阔的空间中导航,以找到最短的路径。 所有推理系统从根本上都基于这种在可能的解决方案空间中搜索以找到符合所需目标的解决方案的原则运行。 当前的系统,包括像 O1 和 R1 这样的 LLM,以一种非常原始和低效的方式来进行这种搜索。 它们在所谓的token空间中运行,或多或少随机地生成多个token序列。
然后,这些系统利用另一个神经网络来筛选所有假设的序列,以选择最合适的输出。 这种方法非常昂贵,因为它需要生成大量的输出,然后才能确定哪些是好的。 而且,它并不能反映人类通常的思考方式。 我们不会产生大量的行动,然后在事后检查结果以确定哪个是最好的。
为了说明这一点,请考虑在您面前的空中想象一个立方体的练习。 如果我要求你把那个立方体绕垂直轴旋转 90 度,你就能想象到旋转后的立方体,而不需要产生大量的动作或序列。
然后告诉我它是否看起来像你旋转之前的原始立方体。 好吗? 答案是肯定的,因为你知道立方体有,你知道,如果你旋转 90 度,它仍然是一个立方体。 而且你仍然从相同的角度看它。
主持人Matt: 你是说自由推理的幻灭吗?
杨立昆: 嗯,所以你所做的是你在你的精神状态中进行推理。 你不是在你的输出行动状态,行动空间中进行推理。
主持人Matt: 在物理世界中。
杨立昆: 或者在你的任何输出状态中,对吧? 你在一个抽象的空间中进行推理。 所以我们有这些世界的心理模型,这允许我们预测世界上会发生什么,操纵现实,并提前预测我们的行为的后果。
如果我们能够预测我们的行为会产生的后果,比如将一个立方体旋转 90 度或任何事情,那么我们就可以计划一系列行动来实现一个特定的目标,对吧? 所以,你知道,每当我们有意识地完成一项任务时,我们所有的心思都集中在它上面。 我们考虑必须执行哪些行动序列来组装这件宜家家具,用木头建造东西,或者只是做任何事情。
基本上,我们每天所做的每一件需要我们动脑筋的事情都涉及到这种类型的任务,我们需要进行计划。 大多数时候,我们以分层的方式进行计划。 例如,如果你打算在某个时候回到华沙,并且你现在决定从纽约回去,你知道你必须去机场然后赶飞机。
好的,现在你有一个去机场的子目标。 这就是分层规划的意义所在。 你为你最终目标定义子目标。 你的最终目标是去华沙。 你的子目标是去机场。 你怎么去机场? 我们在纽约,所以你走到街上然后打车去机场。 你怎么走到街上?
走出这栋楼,走到电梯,乘电梯下去,然后走出去。 你怎么走到电梯? 你必须站起来,走到门口,打开门,等等。 在某个时候,你会达到一个足够封闭的目标,你不需要计划,比如从椅子上站起来。 你不需要计划,因为你太习惯做这件事了。 你可以做到,对吧? 而且你拥有所有必要的信息。 所以,我们需要进行分层规划,智能系统需要进行分层规划,这个想法至关重要。 今天我们不知道如何用机器做到这一点。 这将是未来几年的一个重大挑战。
主持人Matt: 这就是为什么你在达沃斯花了这么多时间谈论机器人技术。你谈到了未来十年的机器人技术。机器人技术经历过无数个寒冬。为什么这次不同?
杨立昆: 是的,机器人技术,我的意思是,机器人今天已经被大量使用。
主持人Matt: 廉价的传感器,更好的模拟器,还是什么?
杨立昆: 嗯,机器人在相对简单且可以以非常简单的方式自动化的任务中是可用的。 所以,对于传感要求不高的场景。 你有在工厂里喷漆汽车和组装零件等等的制造机器人,只要一切都在正确的位置。 那些机器人基本上只是自动机。
杨立昆: 但让我们以驾驶为例。 一辆自动驾驶汽车就是一个机器人,或者说一辆具有驾驶辅助功能的汽车也是一个机器人。 而我们还没有像人类一样可靠的自动驾驶汽车。 我的意思是,我们确实有,像Waymo这样的公司,但他们有点作弊。 他们使用的传感器比人类感应复杂得多。
主持人Matt: 马斯克说,特斯拉将在未来五年内达到五级自动驾驶水平。
杨立昆: 他过去八年来一直这么说。 他说,你知道,明年就会实现,过去八年都是这么说的,但显然没有实现。 所以,要么,我的意思是,你显然必须停止相信他在这件事上的说法,因为他一直都是错的。 要么是因为他认为自己是对的,但结果证明是错的,要么他只是在撒谎。
我认为这是一种激励他的团队去实现年复一年无法实现的目标的方式。 是的。 但我认为,工程师或科学家被他们的CEO告知,你毕生致力于解决的问题,我们明年就能解决,这实际上是非常困难的。
主持人Matt: 所以你认为我们这个时代最大的挑战是整合AI和机器人技术,以及数字化传感器吗?
杨立昆:如果我们能够构建理解物理世界、具有持久记忆、可以推理和计划的AI系统,那么我们将拥有可以驱动机器人的AI基础,这些机器人将比我们现在拥有的机器人更加灵活。 过去一两年里,成立了很多机器人公司。 他们制造人形机器人和类似的技术。 虽然所有的演示都令人印象深刻,但这些机器人的能力非常有限。
他们不能做人类能做的事情,不是因为他们缺乏身体能力,而是因为他们根本不够聪明,无法驾驭现实世界的复杂性。 许多公司都寄希望于AI在未来三到五年内迅速发展。 他们预计,到他们准备好大规模生产和销售这些机器人时,AI的进步将使它们足够智能,能够有效地发挥作用。
这是一场豪赌。 我无法预测这种转变是否会在未来三到五年内发生,但我们极有可能在未来十年内取得重大AI进展,从而实现更灵活的机器人。 这就是我为什么说未来十年将是机器人时代。
主持人Matt: 当你看到今天AI的发展,日复一日,夜复一夜的进步时,你感到惊讶吗?
杨立昆: 没有,实际上并没有。 让我惊讶的是,它的非连续性非常高。 事实上,20世纪80年代和90年代有很多进展,然后什么都没有了。
然后在2000年代取得了一些进展,但它并不显眼。 大多数人没有意识到我们正在取得进步。 然后,大约在2013年左右,当这些进展变得可见时,整个领域就爆发了。
突然之间,许多聪明人开始从事这项工作,许多公司开始投资,并且有更多的兴趣。 所以,现在进展一直在加速,只是因为有更多的投资和更多聪明的人在从事这项工作。
但我本来以为自20世纪80年代以来的进展会更加连续。
主持人Matt: 今天,全世界都在谈论一种新的中国模型,DeepSeek,关于DeepSeek,开源的,比美国人便宜得多。 你不认为马已经跑出马厩了吗? 你怎么看?
杨立昆: 好的,有些事情需要非常清楚地解释一下。 如果一项研究或开发的成果被发表,所以用于产生它的技术被发表在一篇论文或某种白皮书报告中,并且如果代码是开源的,那么整个世界都会从中受益,好吗? 不仅仅是产生它的人。 产生它的人或团体获得声望和认可,或许还有投资或其他什么。 但整个世界都会从中受益。
这就是开放研究和开源软件的魔力。 Meta,我本人,以及更广泛的Meta,一直是开放研究和开源这一理念的坚定支持者。 每当一个实践开放研究和开源的实体产生一些东西时,整个开源社区也会从中受益。
所以人们有点把这定义为一场竞争,但事实并非如此。 它更像是合作。 问题是,我们希望这种合作遍及全球吗? 我对这个问题的回答是肯定的,因为世界上每个地方都有好的想法。
例如,Llama是Meta发布的第一个模型。 我的意思是,它不是第一个LLM; 在此之前我们发布过LLM,但它们有点不显眼。
它是在巴黎,在我们在巴黎的实验室里产生的。 这不是我10年前创建的。 这是FAIR Paris,那里有100多名研究人员在工作。 很多非常好的东西都来自巴黎的那个实验室,以及我们在蒙特利尔的实验室。 研究界是真正的全球性的; 每个人都做出了贡献。 没有哪个实体垄断了好点子,这就是为什么开放协作使该领域发展得更快。 这就是我们大力倡导开放研究和开源的原因——因为当科学家们相互交流时,整个领域会更快地进步。
现在,行业里有些人过去也实践开放研究,但后来变为封闭了; OpenAI就是这种情况。 Anthropic从来没有开放过,所以他们对一切都保密。 谷歌从部分开放转变为基本上封闭,这很大程度上是由于我们的影响。 例如,他们没有透露Gemini背后的所有技术,尽避他们仍然在进行大量的开放研究,但它往往更基础和长期。 我认为这很遗憾,因为很多人实际上把自己置于全球研究社区之外,不参与或为进步做出贡献。
过去10年AI进步如此之快的原因是由于开放研究。 你必须意识到每个人——你真的相信吗? 哦,当然。 这不仅仅是一种信念; 这是一个事实。 让我给你举个例子。 实际上,整个AI行业都在构建,或者至少在研发阶段,使用一种软件来构建系统,叫做PyTorch。
PyTorch是开源的。 它最初是由我在Meta的同事在FAIR开发的,然后由更大的社区进一步开发。 几年前,PyTorch的所有权转移给了Linux基金会,所以Meta不再拥有它。 虽然他们仍然是主要的贡献者,但他们并不控制它; 它基本上由一个开发者社区管理。 整个行业都在使用它。 这包括OpenAI、Anthropic、谷歌(它有自己的系统)、微软、NVIDIA等等。 每个人都在使用PyTorch。 事实上,在科学文献中出现的所有论文中,大约70%的论文都提到了PyTorch。 这表明AI的进步建立在彼此贡献的基础上。
这就是你进行科学技术进步的方式。
主持人Matt: 如果不是DeepSeek,那么也许美国星门计划会改变一切?你不认为这是人类历史上最大的项目吗?
杨立昆: 好的,让我再说一点关于DeepSeek的事情。这是很棒的工作。参与其中的人们有非常好的想法。他们做了很出色的工作。这已经不是第一次有非常优秀、创新的工作成果来自中国了。我们早就知道这一点,尤其是在计算机视觉等领域。当然,中国在大型语言模型方面的贡献是比较近期的。但在计算机视觉领域,这已经是一个悠久的传统。你看看顶级的计算机视觉会议,一半的参会者都是中国人。而且我的意思是,那里有很多非常优秀的科学家和非常聪明的人。
所以,无论美国、欧洲还是世界上的任何地区,都没有对好想法的垄断权。DeepSeek的想法很快就会被复制,可能就在几周内,并可能被整合到美国、欧洲、中东或任何地方的实体未来的版本中。现在它已成为世界知识的一部分,对吧?这就是开源和开放研究的美妙之处。这是产品层面的竞争,但在基本方法层面,却不是竞争,而是合作。
好了,现在我们来谈谈星门计划。所有参与人工智能的公司都看到了一个未来,一个非常近的未来,即数十亿人每天都会想使用人工智能助手。我现在戴着一副眼镜。我不知道你们能不能看到,但上面有摄像头。这是雷朋Meta眼镜,由Meta公司制造。你可以和它们对话,而且它们连接着一个人工智能助手。你可以问它任何问题,甚至可以要求它识别摄像头拍摄的植物种类。
所以,我们看到一个未来,人们将佩戴智能眼镜或使用智能手机或其他智能设备,基本上在日常生活中随时使用人工智能助手。这意味着将有数十亿用户使用这些人工智能助手,每天多次使用。为此,你需要一个非常庞大的计算基础设施,因为运行大型语言模型或人工智能系统并不便宜。你需要大量的计算能力。
其中大部分投资是巨大的;例如,Meta今年在基础设施上的投资大约为600到650亿美元,主要用于人工智能。微软已经宣布他们将投资800亿美元,目标是在五到十年内达到5000亿美元,尽避我们不知道这些钱从哪里来。所以,投资规模大致相同。这与微软和Meta已经在做的事情并没有太大的不同。其中大部分用于推理——运行为数十亿人提供服务的人工智能助手——而不是用于训练大型模型,而训练实际上相对便宜。
因此,我认为金融市场最近几天对DeepSeek的出现做出的反应,例如说,哦,现在我们可以以更低的成本训练系统,所以我们不再需要那么多计算机了,这完全是错误的。
主持人Matt: 好像又回到了常态。
杨立昆: 嗯,我的意思是,训练只会变得稍微高效一些,但结果是我们只会训练更大的模型。最终,大部分基础设施和大部分投资都用于实际运行模型,而不是训练它们。这才是投资的重点。
主持人Matt: 我收到一个观众的问题。您提出了transformer架构的替代方案,而transformer架构是LLM(大型语言模型)中最重要的部分。JEPA世界模型与transformer有何不同?您为什么认为世界模型是未来?
杨立昆: 好的,有一种架构,实际上应该被称为宏观架构,叫做JEPA。这意味着联合嵌入预测架构(Joint Embedding Predictive Architecture)。它不是transformer的替代品。你可以在JEPA内部使用transformer。好的,JEPA是一种宏观架构,你可以在其中安排不同的模块。这些模块可以是transformer;如果你愿意,它们也可以是其他东西,但它们可以是transformer。所以这些是正交概念。如果你愿意,它们不是对立的。
JEPA 是对某种没有通用名称的东西的替代方案,但基本上是指当前的大型语言模型。在业内,它们被称为自回归解码器专用架构或transformer,或者OpenAI称它们为GPT——通用transformer。所以GPT只是一种特定的架构,它不需要是transformer,但它是使用我之前描述的自监督学习技术进行训练的。你取一个符号序列,比如文本,一个单词序列,然后训练一个系统。
这个系统的组织方式是,为了预测输入中的某个特定单词,它只能看到该单词左边的单词。这被称为因果架构。如果你训练一个系统来输入文本,并且你只是训练它来重现输入中的文本,那么基本上,你就在隐式地训练它来预测文本中的下一个单词。一旦它被训练好,你就可以使用该系统以自回归的方式一个接一个地产生单词,这就是大型语言模型的工作原理。
现在尝试将此应用于现实世界,因为你想要训练一个机器人来规划事情或预测世界中将会发生的事情。但是,它行不通。如果不是单词,而是从视频中获取帧,并将这些帧转换为类似于单词的tokens,并且你尝试训练系统来预测视频中将会发生的事情,那么效果并不好。它效果不好的原因是,世界上发生了很多事情,你根本无法预测。
并且,表示你无法准确预测将要发生的事情这一事实,本质上是像视频这样的高维空间中一个数学上棘手的问题。在像文本这样的离散空间中是可能的。所以你无法预测文本之后会出现哪个单词,但你可以预测所有可能的单词的概率分布。我们不知道如何用视频做到这一点。我们不知道如何表示所有可能的视频帧的分布。
因此,用于文本的技术,在文本、DNA序列和蛋白质方面效果很好,但不适用于视频或其他自然信号。所以JEPA是对这个问题的回答。主要的想法是,与其在输入的空间中进行预测,不如训练系统来学习输入的抽象表示,然后在该表示空间中进行预测。事实证明,这是一种更好的问题表述方式。
因为,你知道,如果我对你所在的房间进行视频拍摄,并将摄像头对准一个位置,然后我慢慢地转动摄像头,然后停下来询问系统,“告诉我视频中接下来会发生什么。”系统可能会预测摄像头会继续转动,但它无法预测摄像头旋转后视野中会出现的所有细节。
你知道,那里可能有一株植物,墙上可能有一幅画,也可能有人坐着。它无法预测那些人会是什么样子。它无法预测植物的种类,也无法预测地板的纹理会是什么样子等等。预测这些是不可能的。如果你正在训练一个系统来进行这些预测,它会花费大量的资源来尝试预测它无法预测的事情,最终,它会失败。
主持人Matt: Yann LeCun实验室最伟大的成就就是...
杨立昆: 没有所谓的 Yann LeCun 实验室。很难具体量化它。我的意思是,我最出名的是卷积神经网络,这是一种特殊的架构,灵感来源于视觉皮层的结构,旨在处理图像、视频、音频和语音等自然信号。
这些系统无处不在。如果你在你的车里有任何形式的驾驶辅助系统,而且大多数汽车,现在欧盟销售的所有汽车都必须有,对吧?至少它们必须有一个系统,当前方有障碍物时能自动刹车。
杨立昆: 它们都在使用卷积网络,全部都是。那是1988年我的发明。可以追溯到很久以前。这就是我最出名的原因。最初的应用是字符识别、手写识别、读取邮政编码、读取支票金额等等。那是90年代初。
然后从2010年左右开始,这种应用的数量迅速增长。当你和你的手机交谈时,语音识别系统,实现这个功能的神经网络的前两层通常使用卷积网络。
当你的手机上有一个应用程序,你可以拍一张植物的照片,然后询问你的应用程序这种植物是什么物种,或者拍一张昆虫的照片并询问它的物种,或者甚至听一只鸟的歌声并识别它是什么物种,那也是一个卷积网络。
主持人Matt: 你是欧洲人。在美中两国的人工智能竞赛中,欧洲的位置在哪里?
杨立昆: 我认为欧洲可以发挥非常重要的作用,因为欧洲有最难解决的事情。
杨立昆: 欧盟确实存在这类问题,这是肯定的。例如,我现在戴的眼镜,其中一个应用是解释通过摄像头传来的图像。所以你可以看菜单。我可以看波兰语的菜单,或者你可以用波兰语和我说话,然后就会有菜单的翻译。实际上,这在今天就可以实现。在未来,这些眼镜现在就可以实现,只是...
主持人Matt: 眼镜还没有上市。
杨立昆: 这些眼镜在欧洲有售,只是视觉功能由于法规的不确定性而无法使用。甚至不清楚这些法规是否会使其非法。只是情况不明朗。但我想说,欧洲拥有巨大的资产,巨大的优势。首先是人才。
主持人Matt: 我们的节目是关于数学家的。
杨立昆: 数学家、计算机科学家、更广泛的工程师、物理学家等等。人工智能领域的许多顶尖科学家,无论他们在世界上的哪个地方工作,都来自欧洲。我就来自欧洲。
主持人Matt: 很久了。你是一个欧洲人,你仍然住在巴黎。
杨立昆: 嗯,不,我住在纽约。但我花很多时间去巴黎。
主持人Matt: 我需要问最后一个问题。我记得诺贝尔新闻发布会上,我问 Geoffrey Hinton 一个问题,
如果你能回到过去,你还会做这件事吗?当你回顾你对人工智能发展的研究时,有什么让你后悔的事情吗?我想问你同样的问题。
杨立昆: 我不知道 Jeff 是怎么回答这个问题的,但我可以猜到他会怎么回答。嗯哼。你在把它搞砸。我认为……好吧,先让我给出我的答案。好的,所以我的答案是,在很长一段时间里,我对我们现在所说的自监督学习不感兴趣,因为我认为作为一个问题,它被糟糕地表述了。事实上,我和 Jeff Hinton 进行了多年的讨论,我一直在推动监督学习。他告诉我,最终,我们需要弄清楚如何做他所谓的无监督学习,这现在是一种特殊的自监督学习形式。我只是在2000年代中期改变了我的想法,这可能晚了10年。我应该早点对这个问题感兴趣。
问题是,在90年代中期到2000年代初之间,神经网络和深度学习方面没有发生太多的事情,因为整个世界对此完全不感兴趣。因此,我们不得不做其他的事情。我研究了图像压缩,特别是名为 Deja Vu (DjVu) 的系统,我听说它在波兰,更普遍地在东欧非常受欢迎。所以,我认为这是我会做一些不同的事情。除此之外,我对事情的发展方式感到非常满意。
我本可以更有力地保持社区在90年代末对神经网络和机器学习的兴趣。这可能有助于防止一种“深度学习寒冬”。
我猜 Jeff 可能会回答的一件事是,他在两年前改变了主意。他毕生的追求是弄清楚大脑皮层的学习算法。他一直认为反向传播,这是我们今天用来训练神经网络的主要技术,不是大脑使用的,因为大脑肯定在使用其他的东西。他认为反向传播在生物学上并不真正可行。在过去的40年里,他每两年就提出新的机器学习方法。然而,两年前,他放弃了。他说也许大脑不使用反向传播,但是反向传播效果很好,甚至可能比大脑使用的任何东西都要好。这个认识导致了他的顿悟,最终,他退休了,基本上宣布胜利。
主持人Matt: 我要问你的最后一个问题是,你为什么支持 Athraxis,一家波兰裔美国创业公司,该公司利用纽约大学的人工智能进行乳腺癌预测。你在董事会,你是顾问。
杨立昆: 对的。所以,我的意思是,首先,深度学习在医学上的应用非常有希望。已经有一些深度学习方法被部署用于诊断,包括用于乳腺癌的乳房X光检查等等。
我有一位年轻的同事,他曾是我们实验室的博士后,现在是放射科医学院的教授,Christophe Geras,他非常出色。最近,他说,机会太多了。我要和几个朋友共同创办一家创业公司。所以他们来找我说,你想成为顾问吗?我知道他们的科学研究非常好,我认为这家公司非常有前途。我真的很想看看他们能用它做什么。
我的意思是,广泛的应用范围基本上是使用深度学习进行诊断,特别是对于成像,但更普遍的是。事实上,他们想直接从测量到诊断,而不仅仅是测量,还要到治疗。我发现这真的很有希望和吸引力。
主持人Matt: 教授先生,非常感谢您的时间和光临。非常感谢。非常荣幸。