哈萨比斯回母校剑桥演讲
2025-03-30 04:26:09 · chineseheadlinenews.com · 来源: 瓜哥AI新知
Google DeepMind CEO Sir Demis Hassabis简介
德米斯·哈萨比斯(Demis Hassabiss)是人工智能领域极具影响力的人物,现任谷歌DeepMind的首席执行官。他是一位卓越的神经科学家、人工智能研究员和游戏开发者。2024年获得诺贝尔化学奖。
哈萨比斯拥有剑桥大学的计算机科学博士学位,他的研究领域集中在神经科学和人工智能的交叉点,特别是利用神经科学的原理来开发更智能的算法。
在创立DeepMind之前,哈萨比斯曾是一位成功的游戏开发者,参与设计了多款畅销游戏。他对游戏的深刻理解和在人工智能方面的远见卓识,使得他能够将两者完美结合。
演讲全文
主持人阿拉斯泰尔·贝雷斯福德: 欢迎大家。我是阿拉斯泰尔·贝雷斯福德,现任计算机科学与技术系主任,也被称为计算机实验室。今天下午非常荣幸地欢迎德米斯回到剑桥。
德米斯在20世纪90年代在剑桥学习计算机科学,当时实验室就在这个演讲厅旁边。我很高兴地说,罗宾·沃克今天也来到了现场,他是德米斯在女王学院的学业主任。 我之前和德米斯讨论过,我们认为这是他第一次在剑桥听课的地方,迈克尔马斯学期第一个星期四早上9点的数学课。所以,这里似乎是他回归的合适地点。
在来到剑桥之前,德米斯已经取得了一些令人难以置信的成就。他是一位国际象棋大师,也是当时世界排名第二的14岁以下棋手。在提前一年完成学业后,他没有去欧洲背包旅行,而是进入了电脑游戏行业,在那里他共同设计并担任电脑游戏主题公园的首席程序员。
他首先在Lionhead Studios工作,随后成立了自己的公司。然而,他内心显然对基础科学研究充满热情。因此,德米斯重返学术界,这次是在伦敦大学学院(UCL)攻读认知神经科学博士学位,并于2009年毕业。他留在伦敦大学学院直到2011年,之后离开去共同创立了DeepMind,这是一个人工智能研究实验室,于2014年被谷歌收购。
德米斯和他在Google DeepMind的同事们继续为科学做出了几项开创性的贡献。亮点包括AlphaGo,它是第一个在围棋棋盘游戏中击败职业人类棋手的计算机程序,以及AlphaFold,一个能够预测蛋白质结构的计算机程序。他对AlphaFold的贡献为他赢得了2024年诺贝尔化学奖的一部分。
现在,除了他在此期间令人难以置信的智力贡献之外,他还一直是大学的杰出支持者,包括为学术职位提供资金,以及为计算机实验室和女王学院的弱势群体学生提供大量支持。
德米斯对下一代计算机科学家的热情和支持是今天讲座的动力。我相信他不仅会帮助我们了解如何利用人工智能加速科学发现,还会激励在座的下一代学生也去改变世界。有了这些,我想欢迎德米斯登上舞台。
德米斯·哈萨比斯: 谢谢,阿拉斯泰尔,你的精彩介绍。很高兴回到剑桥。每当我回到剑桥,回到母校,总会感到很温暖。
特别是在这个演讲厅里,正如阿拉斯泰尔提醒我的那样,我想这是我上的第一个演讲厅。它一直是我最喜欢的演讲厅。我记得我告诉过,我看到很多我剑桥时代的老朋友,亚伦,我想,总有一天我会回到这里发表演讲,谈论宣布通用人工智能(AGI),也许会有一个机器人走上台来,让大家惊叹不已。今天我不会这样做让你们失望,但也许几年后,我会再次回来,然后我会做那个演讲。
但这是一个了不起的地方。这是一个如此鼓舞人心的地方。我将稍微谈谈剑桥是如何激励了我的整个职业生涯,并希望它也能为在座的许多学生带来同样的激励。
对我来说,我的人工智能之旅始于游戏,特别是国际象棋,正如阿拉斯泰尔提到的那样。我从四岁开始下国际象棋,并非常认真地为英格兰少年队效力。这种早期接触国际象棋的经历让我开始思考思考本身。我们的头脑是如何提出这些计划和想法的?我们如何解决问题?我们如何改进?当你很小的时候下国际象棋并试图参加比赛时,你会专注于改进这个过程。这对我来说太迷人了;甚至比我玩的游戏更迷人的是游戏背后的实际心理过程。
事实上,人工智能和电脑第一次进入我的生活是在国际象棋的背景下。我开始尝试非常早期的国际象棋电脑,比如右边的这个。我想这是我的第一台国际象棋电脑。它有物理按钮,你实际上必须按下正方形才能移动棋子。我们应该用这些国际象棋电脑来训练开局理论,并更多地了解国际象棋。然而,我记得我被这样一个事实迷住了:有人编写了这个无生命的塑料块,让它实际上可以和你下得很好。我着迷于这是如何完成的,以及有人如何开发这样的程序。
在我十几岁的时候,我尝试了一台Amiga 500电脑,这是80年代末和90年代初一款出色的家用电脑。我开始自己构建人工智能程序来玩像奥赛罗这样的游戏。这真的是我第一次体验人工智能,从那一刻起,我就迷上了它。我早早地决定,我将用我整个职业生涯来推动这项技术的前沿。
然后,这使我来到了剑桥,我在剑桥的三年对我来说是非常有意义的。我上的是北伦敦的一所综合学校。在人们的记忆中,从来没有人去过牛津或剑桥。但我来剑桥的原因是我听到的所有关于剑桥发生的鼓舞人心的故事。
所有这些了不起的人,我过去常常阅读他们的传记和他们所做的工作,特别是像克里克和沃森这样的人。我特别记得一部电影,《双螺旋竞赛》,这是一部来自80年代的精彩电影,如果你还没看过的话。它以杰夫·戈德布拉姆饰蜒讨森的早期角色,他为他的角色带来了所有的热情。他们只是度过了一段美好的时光,在剑桥周围漫步,研究像DNA这样的东西。
我想,看,这就是我想要的——其中的一部分。我想感受一下站在发现前沿的感觉,还有什么比这更令人兴奋的呢?这部电影实际上真正地让它栩栩如生,描绘了那种体验可能会是什么样子。
当然,还有我所有的英雄,我的科学英雄,他们中的许多人都曾在剑桥学习过。像艾伦·图灵和查尔斯·巴贝奇这样的人,当然,他们与我们现在所在的这个演讲厅有着联系。甚至像雄鹰酒吧这样的地方...
你们可以在那里讨论DNA结构。你情不自禁地受到启发,走在国王大道上,我几乎觉得过去的知识巨人们几乎在石头上对你说话。
那就是我的感受,晚上很晚的时候在Gardenias吃汉堡。周围所有这些在几百年来走过同样道路的了不起的人们都在激励着我,我认为剑桥拥有的这种无与伦比的历史,我们仍然可以从中汲取灵感。
然后这张照片是我和亚伦在那里,我最好的朋友之一,显然是在数学桥上。
最后,你知道,当我们,阿拉斯泰尔显然提到了诺贝尔奖,我很荣幸...
在斯德哥尔摩的12月,度过了精彩的一周活动。但我最喜欢的活动是,你可以在诺贝尔基金会的诺贝尔书籍上签名。这就是那本书。一张我的照片,我开始翻阅这本书。你签上你的名字,然后你往回翻。你想知道,克里克在里面吗?当然,他在。然后你再往回翻,爱因斯坦的签名就在那里。这真是令人难以置信。我开始花一个小时只是给书的每一页拍照。所以,你知道,这对我在80年代后期看到的那部电影来说是一个完整的循环。
然后在2010年,我们在伦敦成立了DeepMind,实际上,当时,这就像一个阿波罗计划的努力;我们是这样认为的,试图构建通用人工智能。一种真正通用的,可以执行人类能够执行的所有认知能力的人工智能。因此,它将是一个真正通用的AI系统。
事实上,这个想法真的来自于图灵和图灵机,一种能够计算任何可计算的东西的机器,正如图灵用他的图灵机所展示的那样。
对我来说,这真的是基础,也是我从剑桥的讲座中带走的主要的东西之一,是计算机科学和计算理论的所有这些理论基础,图灵和香农在40年代和50年代所做的著名工作。
我们从2010年开始,这真是太棒了;已经过去15年了,从某种程度上来说,时间并没有那么久远。但当我们最初在DeepMind创业时,几乎没有人从事人工智能研究,这在今天看来简直难以置信,因为现在似乎每个人都在从事人工智能研究。仅仅十多年时间,事情就加速发展到令人难以置信的地步。显然,我们一直是这段激动人心旅程的一部分。
从一开始,DeepMind的使命就是负责任地构建人工智能,以造福人类。然而,我们最初阐述这一使命的方式分两步走。第一步是解决智能问题,第二步是利用它来解决其他所有问题。这在2010年当时看起来非常异想天开。你可以想象,基于这个使命去向风险投资家游说有多么困难——这听起来太疯狂了。
我今天仍然从根本上相信这个愿景,而且我认为越来越多的人意识到,以这种通用方式构建的人工智能,可能会对几乎所有领域产生深刻而变革性的影响。这显然是我们使命宣言的第二部分。对我来说,这包括加速科学发现,推进医学发展,以及加深我们对周围宇宙的理解。
回想我们刚开始的时候,基本上有两种方法,事实上,当我在90年代在这里学习时,从广义上讲,构建人工智能有两种方法。一种是专家系统的方法,即你直接用解决方案预先编程一个专家系统。比如“深蓝”在90年代非常著名地击败了国际象棋大师卡斯帕罗夫,当时我正在这里学习。这大概是专家系统最典型的例子。
但这些专家系统的问题在于,以及它们为什么从未真正扩展到完全通用的人工智能的原因,是它们无法处理意外情况。如果发生了你没有预料到的意外情况,系统中没有任何东西能让它处理这种情况。它们受到逻辑系统的启发,因此非常僵化、脆弱。
而现代方法是建立在学习系统之上的。这些系统能够自己学习,并直接从经验或数据中,从第一性原理开始学习,真正受到了更多神经科学思想的启发。我们今天拥有的这些系统的承诺是,它们可以超越我们作为程序员或系统设计师已经知道如何解决的知识。
当然,这在科学发现等领域非常有价值。
所以,我们从2010年代初开始使用游戏,当然,我一生中多次使用游戏。首先,训练我的思维。然后我过去为电脑游戏构建游戏和人工智能。最后,第三种方式,训练我们的人工智能系统。游戏是人工智能系统完美的试验场。你可以从非常简单的游戏开始,比如70年代的雅达利游戏。在这种情况下,DQN系统是第一个构建端到端学习系统的例子,该系统可以直接从原始数据中学习。在这种情况下,原始数据是屏幕上的原始像素,并且没有被告知任何关于游戏或它所控制的内容。它只是被指示根据这个视频流输入或像素流输入来最大化分数。我们在2013年左右掌握了所有不同的雅达利游戏。
然后,我们将这些系统扩展到我所说的游戏人工智能的重大挑战:你是否可以创建能够在世界冠军水平或更高水平上玩围棋的系统?当然,围棋可能是人类有史以来发明的最复杂的游戏。它有数千年的历史,也是最古老、最优雅的游戏之一。围棋的复杂性体现在有10的170次方个可能的位置。这个数字远远大于可观测宇宙中原子的总数。这里的重点是,你不能使用蛮力技术在围棋中制定策略;这是不可能的,而且完全棘手。因此,你必须做一些更聪明的事情。
2016年,我们著名地赢得了一场价值百万美元的挑战赛,对手是十次世界冠军李世石,他是这项运动的传奇人物之一,一位韩国特级大师,全世界有2亿人观看了比赛。AlphaGo,我们的系统,不仅赢得了那场比赛,更重要的是,它还开发了新的原创围棋策略。即使我们已经下了数千年的围棋,并且专业地下了数百年,AlphaGo还是能够发现以前未见过的策略。最著名的例子是第37步,在第二局中以红色显示。如果你观看了关于此的纪录片(可在YouTube上找到),你会看到世界上最好的棋手在评论这场比赛时有多么惊讶。这是一个不可思议的举动,但它最终决定了第二局的结果,对AlphaGo有利,在100步之后。
这段经历突出了这些类型的系统发明和发现新知识的潜力。在这里,我们讨论的是游戏知识,但显然,我的梦想是将这种能力推广到所有科学发现领域。
那么这些系统是如何工作的呢?我们基本上是通过自我对弈的系统来训练这些神经网络。AlphaGo首次展示了这种方法,此后已将其扩展到后续系统,如AlphaGo Zero和AlphaZero,这些系统将我们下围棋的方法推广到任何从头开始的双人游戏中。
你从系统的第一个版本开始,它实际上对游戏一无所知,只有规则,并且随机玩。然后,让它与自己进行 10 万场比赛。这个过程从这 10 万场比赛中创建了一个新的游戏位置数据库。由此,你训练了第二个版本,即模型的稍微好一点的版本——版本二——旨在预测可以在任何给定位置中进行的可能移动,以及评估哪一方(黑方或白方)更有可能从该位置获胜,以及他们获胜的百分比机会。
使用版本二,你可以在一百场比赛中与版本一进行对战。如果版本二以显着优势获胜——假设胜率为 55%——你将用版本二替换版本一,并创建一个质量稍高的新游戏数据库。这导致了版本三系统的学习。
通过重复此过程约 17 或 18 次,你可以在早上随机玩游戏,然后在不到 24 小时内,达到版本 17 或 18 的水平,该水平比世界冠军更强大。目睹这种自我改进在如此短的时间内展开,真是令人难以置信。
因此,如果我们考虑一下这些神经网络正在做什么,你就相当于将 10 的 170 次方种可能性的这种棘手的搜索空间缩小到在几分钟的计算时间内更容易处理的东西。它通过使用神经网络来有效地引导搜索机制来缩小范围来实现这一点。
如果你考虑一下这种可能性的树,那么这棵树中的每个节点都代表一个围棋位置。你实际上可以使用神经网络来引导你只沿着最有趣和最有用的线路进行检查,而不是必须查看每一种可能性。在这种情况下,那些有趣的线路是用蓝色突出显示的线路。
在你耗尽思考时间后,你然后选择你迄今为止看到的最有希望的最佳线路。在这种情况下,这条特定的线路以紫色突出显示。
这导致了,你知道,我们不仅做了围棋,而且做了任何双人完美信息游戏,它甚至能够发现新的策略和新的国际象棋风格,这有点非同寻常,但考虑到国际象棋计算机已经非常强大了,比如 Stockfish 这样的程序。 AlphaZero 能够在当时的国际象棋比赛中击败 Stockfish,这几乎是不可能做到的。
它不仅击败了 Stockfish,AlphaZero 在这里是白方,与黑方的 Stockfish 对战。在这个特定的位置,AlphaZero 玩过的最著名的游戏之一被称为“不朽的弃子局”。白方在这里获胜是因为它偏爱移动性而不是物质。大多数国际象棋计算机都偏爱物质,你会看到黑方,那些下棋的人,拥有更多的物质,但实际上无法移动任何棋子。它们都卡在角落里。这是 AlphaZero 为这种移动性而牺牲物质。
对于人类特级大师和顶级国际象棋棋手来说,这不仅是一种非常有效的风格,而且也是一种非常漂亮的国际象棋审美风格。AlphaZero 能够发现这种新的方式,这种新的动态玩法,真是太神奇了。事实上,世界上一些顶级的国际象棋棋手对此发表了评论。
加里·卡斯帕罗夫,我一直以来最喜欢的国际象棋棋手,曾说过程序通常反映了程序员的优先级和偏见。但因为AlphaZero是自学的,我认为它的风格反映了真相。当时的现任世界冠军,马格努斯·卡尔森,说他阅读并研究了这些棋局,以及关于AlphaZero的书籍。他提到他最近受到了他的一位英雄的影响,其中之一就是AlphaZero。他实际上将很多这些想法融入到他自己的棋局中,从而在近十年里统治了国际象棋界。
所以我们在游戏AI领域取得了所有这些里程碑式的突破,并且在DeepMind存在的最初十年左右的时间里。但当然,这些只是我们想做的事情的训练场,只是达到目的的手段。玩这些游戏本身并不是目的,虽然我很喜欢游戏。我们的目的是创建这些算法,这些算法可以普遍用于解决现实世界的问题。
所以我们在现实世界的问题中寻找什么,不仅是科学问题,实际上也是工业问题。我们寻找三个不同的标准,这些标准使得一个问题适合于用这些类型的AI系统来解决,以及我们为玩游戏而开发的思想和算法。
首先,我们寻找可以被描述为大规模组合搜索空间的问题。这些问题通常过于复杂,有太多的组合无法暴力破解。然而,可能存在某种结构,我们可以利用我们的神经网络来学习,从而非常有效地引导搜索。
其次,我们寻找可以用明确的目标函数或某种可以优化的指标来描述的问题。在游戏中,这非常直接;例如,最大化得分或赢得比赛。然而,许多现实世界的问题也可以归结为我们旨在最大化的几个指标或目标函数。
最后,当然,我们需要大量的数据或经验来学习,理想情况下,需要一种准确高效的模拟器。这允许我们生成更多的合成数据来扩充我们拥有的真实数据。事实证明,许多问题都可以用这些术语来构建,特别是当我们考虑科学中的重要问题时。
我一直铭记于心的一个问题,可以追溯到我在剑桥大学读本科的时候,就是蛋白质折叠问题。对于那些可能不熟悉生物学和蛋白质的人来说,蛋白质非常重要;它们是生命的基石。基本上,生物体中的几乎所有功能都依赖于蛋白质,从神经元的放电到肌肉纤维的抽搐。因此,蛋白质从根本上使生命成为可能。
那么,蛋白质折叠问题很容易描述。基本上,蛋白质由其基因序列定义,基因序列指定氨基酸序列,然后在自然界中自发折叠成通常非常美丽的蛋白质结构。
所以你从这个基因序列到一个蛋白质结构。蛋白质结构,即三维结构,非常重要的原因是,它在很大程度上决定了它具有什么功能,以及它在身体中做什么。它并没有完全描述功能,但它在它实际上在自然界中所做的事情中起着很大的作用。
那么,蛋白质折叠问题就是这个问题,你能否直接从这个一维氨基酸序列预测蛋白质结构?你能否通过计算预测那个令人难以置信的三维结构?
那么,为什么这是一个如此困难的问题?列文塔尔是60年代一位著名的蛋白质研究员,他描述了一个猜想,后来被称为列文塔尔悖论。他计算出,一个普通蛋白质大约可以采取10的300次方的可能的形状。然而,不知何故,在自然界和身体中,这些蛋白质在几毫秒内自发地折叠起来。这就是悖论:如果有这么多的可能性,自然界是如何做到这一点的?本质上,物理学是如何解决这个问题的?这让我们有希望,它在计算上必须在某种合理的时间内是可以处理的,因为物理学在身体中每秒钟解决这个问题数十亿次。
此外,吸引我关注这个问题的是每两年一次的CASP竞赛,你可以把它看作是蛋白质折叠的奥林匹克竞赛。它每两年举行一次,由马里兰大学的约翰·马尔特教授领导的杰出人士组织。这项竞赛自1994年以来一直在进行,被认为是一项伟大的倡议,因为它与实验人员合作,他们使用非常奇异和昂贵的设备(如电子显微镜)费力地确定蛋白质结构。他们将尚未在竞赛中发表的新发现的结构包括在内。
在竞赛中,组织者知道蛋白质结构的真实情况,而计算团队——每年都有数百个团队参加——试图使用他们的计算方法来预测这些结构。通常,大约有100种蛋白质出现在比赛中,在夏天结束时,真正的结构会被揭示出来。然后,参与者可以将他们预测的结构与实际结构进行比较,评估他们在预测中的距离和误差与真实结构之间的关系。
实际上,我们在2018年第一次参加了AlphaFold 1,实际上我们在2016年启动了这个AlphaFold项目,几乎就在我们从韩国首尔的AlphaGo比赛回来后的第二天。我们觉得,而且我感觉我们已经准备好了。我们拥有足够成熟的技术,现在可以应用于游戏之外,并尝试解决真正有意义的问题。我们称它们为“根节点”问题,因为如果它们能够被解决,它们将开启全新的发现分支和途径,可以在其基础上构建。而蛋白质折叠就是一个典型的例子。
所以我们从2016年开始工作。 AlphaFold 1在几年后准备就绪,我们将其输入CASP13竞赛。你可以看到,在过去的十年中,这些条形图显示了最困难类别中获胜团队的获胜分数,实际上是最难预测的蛋白质。你可以将其视为一种百分比准确度,即在一定的容差范围内,在原子宽度内,你正确预测了多少氨基酸的位置。
你可以看到,十年来进展不大,我们停留在60分水平。
实际上,如果你达到90,你就会在原子的宽度之内,所以你将达到原子精度。实验人员告诉我们,这是你必须达到的精度,这样它才能与实验方法竞争,这样实验人员实际上可以依赖这些预测,而不必必须做费力而艰苦的工作来找到该结构。
作为一条经验法则,我的生物学家朋友总是告诉我,一个博士生需要花费整个博士生涯,也就是四到五年,才能找到一种蛋白质的结构。科学界已知有2亿种蛋白质,人类蛋白质组中有2万种蛋白质。
通过AlphaFold 1,我们能够赢得这场比赛,并且比下一个最好的系统好近50%。 AlphaFold 1首次将机器学习技术作为该系统的主要组成部分。但是,这不足以达到原子精度。
实际上,我们必须带着我们学到的东西回到绘图板,并从头开始重新构建AlphaFold 2,使用我们从AlphaFold 1获得的所有知识,最终达到这种原子精度。这导致组织者宣布该问题已在2020年底得到解决。
所以这是一个AlphaFold如何在视觉上工作的一个例子。所以你可以在左侧看到的是一个非常复杂的蛋白质。真实情况是绿色的。预测的结构是蓝色的。你可以看到蓝色与绿色重叠的紧密程度。然后在右侧,你可以看到AlphaFold 2的工作方式。它以迭代过程构建该结构。实际上,它会在192个步骤中进行自我循环。然后构建出越来越合理的结构。最后,它会对最后的部分进行完善,直到得到最终的预测。
我们立刻尝试着去做,因为AlphaFold非常准确,而且不仅仅是准确,它还极其快速。它能在几秒钟内折叠一个蛋白质,平均而言。我们很快意识到,我们实际上可以折叠科学界已知的所有2亿个蛋白质。在一年多的时间里,我们在Google Cloud上使用了大量的计算机来折叠所有这些蛋白质,然后与我们在EMBL EBI的同事,就在剑桥郊外的Sanger Center,将它们免费发布在一个数据库中。我们免费提供它,无限制地供世界上任何人使用。
想想看,实验上完成那2亿个蛋白质需要多长时间——四五年——这就像用一年时间完成了十亿年的博士研究时间。想想能加速多少科学研究,真是令人惊叹。这项工作开辟了全新的探索途径,因为许多这些结构,特别是对于那些研究较少的生物,比如某些类型的植物,对于科学和农业研究非常重要。几乎所有这些结构之前都无法找到和获得。现在,所有这些结构都可用了,而且通过这2亿个结构,研究人员可以在聚合层面上观察它们,检查跨物种的结构,并通过进化识别共性。
现在正在探索一些非常有趣的结构生物学新分支。当然,我们从一开始就考虑到了安全问题,并非常认真地承担我们在人工智能前沿的责任。在这种情况下,我们咨询了30多位生物安全和生物伦理学专家,以确保我们发布到世界上的好处远远超过与之相关的任何风险。
我非常自豪地说,来自世界上几乎每个国家的200多万研究人员正在使用它。它现在已经被引用了3万多次,并且已经成为生物学研究中的一个标准工具。希望在座的各位博士生都在使用它,并充分利用它。它已经成为生物学研究中使用的标准规范的一部分。
看到其他研究人员利用所有这些技术和所有这些结构所做的事情,真是太棒了。我只是列举了我最喜欢的六个例子。朴茨茅斯大学的人们正在使用它,研究小组正在解决环境中的塑料污染问题,试图设计新的酶,这些酶是可以消化塑料的蛋白质。
我们正在与弗莱明中心合作研究抗生素耐药性和被忽视的疾病,如影响世界较贫困地区的热带疾病。我们与被忽视疾病药物研究所合作。这是一个很好的例子,说明我们如何加速这些领域的研究,无论是疟疾、利什曼病还是寨卡病毒。许多这些结构都是未知的,但现在它们可以直接进行药物发现,因为它们有很多关于这些病毒和细菌结构的信息。
此外,还进行了大量的关于纳米孔复合体结构的基础研究,这是一种非常重要的蛋白质,允许营养物质进出细胞的核孔。此外,Broad研究所正在进行令人惊叹的关于药物递送的工作,他们正在设计分子注射器,并重新设计可以将药物靶向递送到身体特定部位的蛋白质。
最后,这项技术甚至被用于研究生育机制。AlphaFold的应用范围非常广泛,因为它已被用于当今几乎所有生物学和医学研究领域。
在过去的几年里,我们不断开发更多的进步并改进系统。我们今年早些时候发布了AlphaFold3供学者使用,现在我们已经扩展了AlphaFold3来处理相互作用。你可以将AlphaFold2视为静态蛋白质结构的图片,但生物学实际上是一个动态过程。因此,理解不同的生物元素如何相互作用至关重要。
这包括蛋白质和其他蛋白质之间的相互作用,以及蛋白质与其他重要分子(如DNA和RNA)以及配体之间的相互作用。配体是小分子,例如,药物化合物。探索蛋白质如何与这些化合物结合非常重要。
此外,我们还有另一套工作,AlphaProteo,它本质上是AlphaFold的逆过程。这种方法利用了在AlphaFold中开发的技术。如果你想设计一种自然界可能不存在的新型蛋白质,用于特定的任务或功能,就有必要确定氨基酸序列和将产生所需结构的基因序列。
因此,这类似于反向运行该过程,旨在设计可以执行新任务的新结构。这种能力对于药物设计和基本化合物(如抗生素和抗体)的开发可能非常有价值。
所以退一步讲,如果我们看看过去15年我们所做的所有工作,这对科学和机器学习意味着什么?如果你想想我们所做的,首先是我们游戏方面的工作,然后现在是我们一直在做的科学工作,其中AlphaFold是我们最好的例子,这一切都是为了使这种搜索变得可行。你有一个非常复杂的问题,有很多可能的解决方案,你必须找到最佳解决方案,即在这个巨大的组合搜索空间中的“大海捞针”。
你不能通过蛮力来做到这一点,所以你必须学习这种神经网络模型,它会学习问题的拓扑结构。这使你能够有效地指导搜索,以最大化或找到你心中目标的最佳解决方案。我认为这代表了一种非常通用的解决方案,一种高度通用的方法来处理无数的问题。
回想一下围棋的例子,我们试图使用这些系统来找到游戏中最佳的走法。但是,你也可以更改这些节点来代表化合物,现在你试图在化学空间中找到最佳分子。这是药物设计的开始,其目的是识别一种与感兴趣的靶标特异性结合,同时避免与其他非预期靶标相互作用的分子。
这种特异性降低了化合物的副作用和毒性。随着我们进一步进入药物发现领域,我们用于设计这些分子的技术与我们在游戏中使用的方法非常相似。
所以我认为至少在生物学领域,我觉得我们现在正在进入一个我喜欢称之为数字生物学的新时代。我认为生物学在其最基本的层面上是一个试图抵抗周围熵的信息处理系统。我相信这本质上就是生命。当然,这是一个非常复杂和涌现的信息处理系统。这就是人工智能的用武之地。正如我在这间房间里学到的数学是物理学和物理现象的完美描述语言一样,我认为人工智能有潜力成为生物学的完美描述语言。它非常适合处理像生物学这样的动态系统中发生的复杂涌现行为和相互作用。
我相信AlphaFold证明了这种潜力。我希望当我们回顾10年后,它不会被视为一个孤立的突破,而实际上会预示着数字生物学新黄金时代的到来。我们正在积极尝试推进这一点。我们成立了一家新的衍生公司Isomorphic Labs,以AlphaFold技术为基础,更多地进入我之前提到的化学领域。我们的目标是从第一性原理出发,利用人工智能重新构想药物发现。
目前,开发一种药物平均需要10年时间,而且这个过程非常昂贵,耗资数十亿美元。这让我不禁想,我们为什么不能利用这些技术将时间从几年缩短到几个月,甚至缩短到几周?正如我们将蛋白质结构的发现时间从可能需要数年缩短到现在只需几分钟甚至几秒钟一样,我们也渴望在药物开发中做到这一点。我们认为这是以数字速度进行科学研究,试图将最好的技术引入自然科学。
我的梦想有一天是创建一个虚拟细胞,也许是一个像酵母细胞这样非常简单的计算模型,允许我们在计算机上对其进行实验。从这个虚拟细胞中产生的预测可以指导和指导实验室中的真实实验。这种方法可以显著减少在湿实验室中通常进行的广泛搜索过程,使我们能够主要将湿实验室用于验证步骤,而不是用于昂贵且耗时的搜索过程。
当然,人工智能一直是一种宝贵的工具,我们不仅在生物学领域使用它,还在科学、数学和医学等领域使用它。我们已经看到了人工智能应用带来的一系列突破。例如,在健康领域,人工智能已被用于通过视网膜扫描识别眼部疾病,发现新材料,并协助进行血浆容器输注反应器。
人工智能也促进了更快算法的开发,比如改进的矩阵乘法技术。此外,它在天气预测中扮演着重要角色,甚至通过纠错来辅助量子计算。这些例子仅仅展示了我们在过去两三年里所完成工作的一小部分。
我坚信人工智能将适用于几乎每一个领域。我一直鼓励各大学开始认真思考多学科交叉的方法,将人工智能应用于特定专业领域内的紧迫问题。我相信,通过这种合作努力,在未来五到十年内可以取得许多进展。
所以,我最后想谈一点更普遍的看法,不仅是人工智能在科学领域的应用,还有通往通用人工智能(AGI)的道路,以及我们离目标有多近,以及我们在AGI最初使命上的更普遍的工作。我们在对世界的一般理解的各个领域都取得了很大的进展。我们有时称之为世界模型。我们特别自豪于我们新的视频模型,叫做VO2,它在去年年底刚刚发布。
它能够仅仅通过文本描述,或者一张静态图片,来生成这些视频。实际上,虽然有些视频可能看起来没有那么令人印象深刻,但如果你想想这个切番茄的视频,这就像视频模型的图灵测试。因为通常你会看到番茄神奇地恢复原状,或者刀切到手指,或者刀子移到别的地方。但实际上,如果你想想系统需要做什么才能真正理解世界的物理规律,或者这些蓝莓周围的气泡,仅仅是从文本生成,比如“蓝莓掉进一杯水里”。
它正确地完成了所有物理过程,或者这些卡通人物的运动,或者这只蜜蜂。这真的很令人震惊。我想,即使你五年前告诉我,这有可能实现,而不需要构建一些对物理的特殊理解,我也会告诉你这似乎不太可能。然而,这些学习系统竟然能够仅仅通过观看大量的YouTube视频来学习真实世界的物理。这真是太疯狂了。
我们已经做到了。我们用Genie 2更进一步,这当然又把我对游戏的兴趣带回来了。这是让Veo模型更进一步。现在,通过文本指令,你可以生成一个完整的游戏。比如说,在底部,我们输入“生成一个在未来城市中作为机器人的可玩世界”。它就生成了这个,你可以用QW键和方向键来控制它。目前,它只能保持几秒钟的一致性,但我们正在努力扩展它,使游戏世界的一致性持续几分钟。
这样,你就真正拥有了我所说的世界模型——真正理解真实世界,以及真实世界中互动是如何运作的,以及真实世界的物理规律。
当然,我们一直在努力研究这方面的安全问题。早在2010年,我们就开始规划成功,尽避当时几乎没有人关注人工智能。我们设想这是一个20年的任务,令人惊讶的是,我们大约在15年时就走上了正轨。我们在规划成功的同时,也明白如果我们要构建这些具有变革性的系统和技术,也会带来很多责任,以确保它们以安全和负责任的方式部署。
我们构建的一项技术叫做SynthID,它使用人工智能系统进行隐形水印。这种对抗性人工智能系统会稍微调整像素、文本或音频,使其对人耳或人眼无法察觉。但是,它可以被检测系统识别为合成生成的图像,无论是音频、图像还是视频。
随着这些技术的广泛部署,对于我们来说,能够轻松区分合成生成的图像和真实图像将变得越来越重要。
人工智能具有令人难以置信的潜力,可以帮助我们应对从气候到健康的巨大挑战。但显然,这将影响到每个人。因此,我认为我们参与其中非常重要;这不仅仅是技术人员的决定,而是我们需要与社会各界广泛的利益相关者进行互动。
在过去的几年里,我真的很高兴看到人工智能成为主流的一个结果是,许多政府和社会的许多部门都对它产生了兴趣。很高兴看到这些国际峰会。实际上,英国几年前在布莱切利公园主办了第一次峰会,将各国政府首脑与学术界和民间社会聚集在一起,讨论这些技术,如何设置正确的护栏,如何确保我们抓住机遇,同时也减轻潜在的风险。
鉴于我们所看到的这些技术的指数级改进,我认为这将变得越来越重要。我对这一点的简短表达是,硅谷的许多信条是“快速行动,打破常规”。当然,这创造了很多进步,我们今天每天使用的许多技术都是如此。
然而,我认为对于这种具有变革性的技术来说,这并不合适。我认为相反,我们应该尝试使用科学方法,并以这种技术应有的谦逊和尊重的态度来对待它。我们有很多东西不知道;关于这项技术将如何发展,存在着许多未知数。它是如此新颖。我相信,只要有格外的谨慎和远见,我们就能获得所有的好处,并将它的缺点降到最低,但前提是我们现在就开始对它进行研究和辩论。
最后,我想说的是,我们现在正在构建我们自己的大型多模态模型,试图将我向你们展示的所有这些不同模型的优点结合起来,并放入一个系统中。我们称之为Gemini系列。我们最新的版本是Gemini 2.0,你们中的一些人可能已经尝试过了,它在许多领先的基准测试中都处于最先进的水平。我们正在用它来进一步发展。
我对下一代助手感到非常兴奋。我称之为通用助手。我们称之为Project Astra,实际上你可以把它放在你的手机或其他设备上,也许是眼镜上。它开始成为一个你可以随身携带的助手,帮助你丰富生活或提高效率。
人工智能的下一步是将我向你们展示的内容与AlphaGo结合起来,这些基于代理的模型能够有效地搜索并在有限的领域内找到问题的良好解决方案,在这种情况下是在游戏中。但我们实际上想在更通用的模型之上构建这些类型的搜索系统和规划系统,比如Gemini,这些世界模型能够理解真实世界是如何运作的,然后可以在真实世界中进行规划并实现目标。
当然,这是机器人技术工作的关键,我认为在未来两三年内,这将是一个巨大的领域,将会取得巨大的进展。
最后,我想稍微推测一下,如果我们回顾图灵和他为计算机科学奠定基础所做的一切工作,这一切意味着什么。我认为,如果你看到我们所做的工作,我在某种程度上把自己看作是图灵的捍卫者。图灵机和经典计算的思想能走多远?
我在这间教室里上过的一节课涵盖了我最喜欢的主题之一:P与NP问题,这是一个计算机科学中著名的问题,它涉及到哪些类型的问题在经典系统中是可以解决的。显然,在量子计算系统方面正在进行着大量的出色工作,其中大部分就在剑桥。在谷歌,我们拥有世界上顶级的量子计算团队之一,并且有许多现实世界的系统被认为需要量子计算才能被理解和建模。
我的推测是,经典的图灵机——基本上是构建这些类型的人工智能系统的经典机器——可以做比我们以前认为的更多的事情。如果你考虑AlphaFold和蛋白质折叠,蛋白质是在原子尺度上运行的量子系统。人们可能会认为你需要量子模拟来实际找到蛋白质的结构;然而,我们能够用我们的神经网络来近似这些解决方案。
将我引向了一个潜在的想法:任何可以在自然界中生成或找到的、具有真实物理结构的模式,都可以通过像AlphaFold这样的经典学习算法有效地发现和建模。如果事实证明是这样,我相信这对量子力学,乃至对基础物理学都具有重大意义。这是我希望与我的许多同事一起探索的方向,也许可以借助这些经典系统来帮助我们揭示现实的本质。
最终,这让我回到了多年前我开始AI之路的原因。我一直相信,以这种方式开发出来的通用人工智能(AGI)可以成为理解我们周围宇宙以及我们在宇宙中地位的终极通用工具。谢谢。
主持人阿拉斯泰尔·贝雷斯福德: 很好,我们现在有时间回答一些问题,如果大家有问题的话。这里已经有人举手了。
现场提问者: 谢谢,谢谢您的精彩演讲。因为您有神经科学的背景,而且您非常喜欢从根节点问题的角度来思考。在神经科学领域,您是否遇到过一个值得解决的根节点问题,并且仍然值得解决,以便更好地理解生物智能和人工智能?
德米斯·哈萨比斯: 是的,有很多。实际上,那是我博士期间研究的课题,关于记忆,还有想象力,也就是未来思考、规划之类。所以我真的很想了解大脑是如何做到这一点的。事实证明,海马体同时参与了这两方面,所以我们也许可以用这些算法来模仿它。
我认为这里面有很多关键点。当然,还有关于创造力、梦境和意识的各种大问题。我认为,构建人工智能,然后将其与人类思维进行比较,是解决这些根节点问题的最佳方法之一。
比如这些问题:意识的本质是什么?大脑基质的实例化与在硅中以算法方式模拟它有什么特别之处吗?
主持人阿拉斯泰尔·贝雷斯福德: 好的,这边有一个问题。
现场提问者: 您好。实际上我有两个问题。
因为DeepMind是在深度学习革命之前成立的,我想知道,如果深度学习没有兴起,你们当时的心态是什么?或者说,你们打算如何发展?这是第一个问题。
第二个问题是,鉴于您对如此具有挑战性和高维度的问题有着深入的经验,我们知道梯度下降及其变体只能收敛到局部最优解,而不是全局最优解。您是否对这些系统在每个时间点都能起作用感到惊讶?
此外,您是否认为自然界的大部分都是次优的,因此我们有可能构建一个更优的自然?
德米斯·哈萨比斯: 好的,我认为第一个问题非常好。关于第一个问题,我们之所以叫它DeepMind,部分原因是因为“deep”指的是深度学习。深度学习,或者说更早的时候,还不叫深度学习,但它已经开始普及。当时有玻尔兹曼机,还有Geoffrey Hinton在几年前,2006年、2005年发明的这些分层神经网络。对于我们在学术界接触到它的人来说,即使在当时,这似乎也是一个非常有前途的想法。
我们押注的另一件事是强化学习以及它们的结合,这又开始流行起来。这对我们解决AlphaGo这样的问题也很重要。你需要两部分:你需要深度学习来建模环境和世界,然后你需要强化学习来制定计划、找到解决方案,并在世界中采取行动。我们押注于此有两个原因,即使那时还只是开始。我们知道经典方法,即这些专家系统,无法扩展。实际上,这也是我在这里,以及在麻省理工学院做博士后期间学到的东西,他们就像经典方法的“教堂”。
你在这里可以学到的另一件事是,在你的大学课程中,不仅要学做什么,还要学不做什么。我觉得经典方法永远无法扩展到我想用人工智能解决的那些问题,而学习系统似乎具有无限的潜力。虽然一开始从学习系统获得显著成果要困难得多,因为它们还没有扩展到足够的规模,但这仍然是一个问题。我们在2010年创立DeepMind的另一个原因是,我们也看到了硬件方面计算范式的转变,出现了GPU和其他技术,这些技术当然也是为游戏而发明的。事实证明,一切都是矩阵乘法,智能、游戏和计算机图形都具有这种共性。
所有这些不同的影响汇集在一起,加上神经科学的理解,fMRI机器和整个神经科学在过去十年中也取得了显著进展。我觉得在2010年把所有这些结合起来是完美的时机。我们押注于此,不一定是因为我们知道它会奏效,而是因为我们相当确信其他方法,特别是旧的专家系统,是行不通的。这基本上就是人工智能寒冬的原因:人们试图推动那些专家系统。
至于第二个问题,我认为我不应该说我对这些东西能够收敛感到惊讶。我们实际上并不确定。你知道,我给你们看的Atari的东西吗?在前几年,什么都不起作用。我们甚至无法在Pong,也就是最早的电脑游戏之一上得到一分。这种网球拍和球的游戏,是你能够想象到的最简单的游戏,我们却无法得到一分。我们当时怀疑我们是不是提前了10年或20年,就像巴贝奇和他的差分机一样。他有很棒的想法,这些想法也很有效,但最终,他只是提前了50年甚至100年。我总是说,你想比你的时代提前五年,而不是提前50年。否则,你会经历很多痛苦,就像巴贝奇一样。
所以我们当时很担心,但后来它确实收敛了,这给了我们信心去解决更难的问题。如果你问的是关于自然界事物的问题,我的想法是它们不是次优的。它们很可能是相当优化的,因为它们经历了一个进化过程——不仅仅是生物的生命,实际上还包括地质和物理。小行星和物理现象随着时间的推移结合在一起,能够存活一段时间是因为它们是稳定的。如果它们随着时间的推移是稳定的,那么可能存在一些可学习的结构——这是我的猜想。
现场提问者: 您如何看待构建高带宽脑机接口和可植入的记忆和推理模块,以便让人类能够进一步自主地进行发现,而不仅仅是在云端与人工智能对话?
德米斯·哈萨比斯: 是的,我很喜欢那个领域,并且我一直在关注它,也帮助人们制作脑电图帽之类的东西。当然,问题在于这些设备从大脑读取数据的分辨率,理想情况下,你希望它们能够读写。我非常着迷于像Neuralink或脑芯片这样的项目。
显然,目前这项技术是为退伍军人和那些需要恢复身体机能的人准备的。我认为它将带来惊人的进步,比如那些因严重受伤(例如脊椎断裂)而无法行走的人将能够再次行走。医疗科学领域将会出现可靠的进步,这将是非常了不起的。
更进一步,如果这些技术变得常规、手术安全,并且有安全的实施方法,我能想象它们会成为我们跟上技术发展的一种方式。从某种意义上说,这个想法与我们今天所拥有的所有技术并没有什么不同。我们都每天24小时携带手机,使用电脑和其他设备,所以我们已经与技术建立了一种共生关系。
当然,将其与我们自身融合会更进一步。但我不太确定——也许这是一个需要房间里的哲学家来回答的问题——确定区别是什么,或者当技术附着在你身上时,与你一直携带在身边相比,是否存在一个明确的界限。
主持人阿拉斯泰尔·贝雷斯福德: 好的,这边有一些问题。
现场提问者: 你如何看待人工智能的发展速度以及它对经济发展的影响?现在有很多人正在决定职业生涯,但鉴于形势的快速变化,他们很难预测自己应该进入哪个行业。
德米斯·哈萨比斯: 是的,这是一个非常复杂的问题,正如你所说,事物变化的速度非常快。我们实际上早些时候还在和Alistair讨论这个问题。即使是设计为期三年的计算机科学课程也相当困难,因为基础材料的变化周期不到三年。我想我们唯一能确定的是,将会发生很多变化,但我认为这会带来颠覆和机遇。
所以,我给你举一个关于编码的例子。我不知道你是不是计算机科学家,但我仍然建议你擅长编码和数学,因为我认为如果你了解这些工具是如何构建的,你就能以更深入的方式使用这些新工具。另一方面,我认为由于你能够以自然语言而非相当复杂的计算机语言进行编程,编码将对更多类型的人开放。
这种转变将为创意人士开辟领域,让他们能够构建游戏、制作电影和创建应用程序。这可能更多的是在创意方面,而不是在工程方面。然而,我也认为这将使工程师能够完成比今天多十倍的工作。所以,我仍然认为很难知道所有的结果。
我想说的是,专注于在你的空闲时间拥抱这些工具,并训练自己快速掌握新信息。因为我认为这基本上就是未来十年会发生的事情。
主持人阿拉斯泰尔·贝雷斯福德: 好的,我们这边有一个问题,穿着黄色和黑色上衣的那位。
现场提问者: 你认为是否存在任何无法用现有的深度学习技术建模的生物过程、行为或模式?我不是说投入更多的计算机直到它工作,然后建立一个越来越大的模型。你认为是否存在一些物理上无法用该架构建模的过程?
德米斯·哈萨比斯: 当然,现在有很多过程无法建模,但同样,这又回到了我在演讲结束时所说的。我不确定在极限情况下是否存在这种情况。我认为最终,如果物理学可以解决它,并且存在一些结构可以学习,那么可能有足够的例子,可以逆向工程出一个模型。
那么,我不认为有什么理论上的理由可以解释为什么一个经典的系统(尽避是非常复杂的)不能对该生物系统进行预测或模拟。所以,我真的不认为在极限情况下会存在什么。有一些抽象的东西,比如大数分解、密码学,这些都是人造的系统,对吧,可能没有任何结构。
我的意思是,自然数中可能存在结构。很多人猜想存在。如果存在,那么它也是可以学习的。如果不存在,并且它是一种均匀分布,那么你需要一台量子计算机来破解密码学等等。所以这些都是未解决的猜想,但我认为自然界中的大多数事物都是在地理或生物物理时间中进化而来的,所以这表明存在一些结构可以学习。
因此,这使得搜索或预测可能变得容易处理。
主持人阿拉斯泰尔·贝雷斯福德: 好的,最后一个问题。请穿粉色衬衫的那位提问。
现场提问者: 这个问题来自剑桥大学游戏开发协会。你提到了Genie 2模型,以及它目前只能保持几秒钟的一致性,并希望将其扩展到几分钟。
然而,我们的协会对我们实际玩的游戏的一致性有疑问,这种一致性通常是无限期的。例如,当你玩Minecraft时,你希望当你转过身时,村庄仍然在那里,对吧?
那么,你是否认为你目前的模型可以集成到工作流程中?你如何设想人工智能、你的模型以及你正在做的工作在未来几十年内融入游戏开发中?
德米斯·哈萨比斯: 是的,我认为人工智能将以多种方式进入游戏领域。一种方式是通过工具来构建游戏所需的素材,例如3D模型和动画。我认为所有这些都将在未来几年内实现。你也可以考虑使用人工智能进行游戏平衡。想象一下,你设计了一款游戏,一夜之间它可以进行一百万次游戏。早上,你作为游戏设计师会收到一份报告,指出什么是不平衡的,例如需要降低这个单位的能量或进行其他调整。
我还认为人工智能对于开放世界游戏的错误测试非常有帮助。我曾经制作模拟游戏,而开放世界游戏的错误测试是一场噩梦,因为玩家几乎可以做任何事情,从而导致与游戏的独特互动。你如何测试1000万人对你的游戏有他们自己独特的体验?让人工智能玩家在发布之前模拟这些体验可以帮助你识别并解决许多错误。
最后,一个令人兴奋的进展是创建更逼真、可以推动故事情节的人工智能角色。你过去常常在大型多人世界中梦想着这一点,在那里人工智能角色是智能的,并且可以根据玩家的行动更新他们的信念和故事情节。这将创造一个更加生动和真实的世界。我认为我们正处于构建这些类型游戏的边缘。
此外,我们正在构建的世界模型更多的是关于通用人工智能和对世界理解的建模。你的模型理解世界吗?如果它能在一段时间内生成逼真的场景,它就反映了对底层物理的理解。这与通用智能更相关。也许有一天我们会拥有全息甲板体验,在那里你可以想象,一切都在你周围,但我认为这还有很长的路要走。
主持人阿拉斯泰尔·贝雷斯福德: 很好。看来这里是个结束的好地方,一个关于游戏的问题,又回到了游戏。非常感谢大家的光临。特别感谢Demis今天能来和我们交流。谢谢你。