大模型预训练时代即将终结! AI巨佬Ilya最新顶会演讲。英文演讲带读【含演讲全文】
AI领域的领军人物Ilya在NeuralPS2024顶会上发表了演讲,主要讨论了大模型预训练时代的终结、未来AI的发展方向,以及超级智能的潜力和挑战。演讲内容涉及深度学习的过去、现在和未来,强调了从生物学中汲取灵感和探索新的学习算法的重要性。
1.预训练时代的终结:AI领域专家Ilya在NeuralPS2024顶会上提出,大模型的核心“预训练”机制即将结束。他指出,尽管计算能力在增长,但数据量并未相应增长,我们已达到数据的巅峰,未来不会再有更多数据。
2.未来AI进展方式:Ilya预测,未来AI的发展可能包括代理(Agents)、合成数据、推理时间计算和从生物学中汲取灵感等方向。
3.超级智能的预测:他预测超级智能将拥有与人类智能截然不同的质量和属性,具备强大的代理能力和自我意识。
4.挑战与应对:Ilya强调,应对超级智能带来的挑战,如不可预测性和道德伦理问题,需要探索新的学习算法和计算资源利用策略。
5.深度学习的历史与未来:Ilya回顾了深度学习的早期假设,包括神经网络的能力、自回归模型的贡献和局限,以及预训练时代的核心理念。
6.对生物学的启发:他还提到了从生物学中寻找深度学习新启示的可能性,特别是人脑的运作机制。
7.Q&A环节:演讲后的Q&A环节中,Ilya讨论了多个问题,包括生物启发式AI的潜力、模型自我纠正的可能性、创造正确激励机制以促进AI发展,以及大语言模型在分布外进行多跳推理的泛化能力。
Ilya在演讲中展现了他对AI未来发展的深刻洞见,同时也坦诚面对超级智能带来的挑战和不确定性。
以下是本次演讲的完整内容。
我要感谢组织者为这个奖项选择了一篇论文。非常好。我也想感谢我的令人难以置信的宇宙加速器和合作者Oriel vinyls和Coakley,他们刚才就站在你们面前。
你们现在看到的是一张图片,一张截图,来自十年前2014年在蒙特利尔 NeurIPS 会议上的类似演讲。这是一个更加无邪的时代。这是我们,当时拍摄的照片。这里是之前的场景。顺便说一下,这里是之后。
现在我们有了我经验丰富的,可能是护目镜的视角。但在这里,我想谈谈这项工作的内容,或许进行一个十年的回顾。因为在这项工作中的很多观点是正确的,但有些则不是。我们可以回顾这些观点,看看发生了什么,以及它是如何温和地演变成我们今天所处的位置。
那么让我们先谈谈我们做了什么。我们将通过展示十年前同一次演讲的幻灯片来进行总结。我们工作的总结如下三点:这是一个基于文本训练的自回归模型,一个大型神经网络,还有一个大型数据集。现在让我们更深入地探讨一些细节。这是一张十年前的幻灯片,还不错。我们在这里讨论的是深度学习假设:如果你有一个十层的大型神经网络,它可以在一瞬间完成任何人类能够完成的事情。
为什么我们如此强调人类在短短一秒钟内能够做的事情?为什么特别是这个内容?如果你相信深度学习的教义,或认为人工神经元和生物神经元是相似的,或者至少差异不大,并且相信真实的神经元比我们人类快速完成的任何事情都要慢,我甚至是指全世界的某一个人。如果全世界有一个人能在一瞬间完成某项任务,那么一个十层的神经网络也可以做到。这就成立了。你只需将他们的连接提取出来并嵌入到你的人工神经网络中。
这就是动机。任何一个人能够在一瞬间完成的事情,一个大型的十层神经网络也能够做到。我们专注于十层神经网络是因为当时我们只知道如何训练这样的网络。如果在层数上有所突破,就可以做更多的事情。但在那时我们只能做到十层,这就是为什么我们强调人类在瞬间内能做的任何事情。这是演讲中的另一张幻灯片,说明我们主要想法的一张幻灯片。你可能能够识别出两个东西,或者至少一个东西。你可能会意识到这里发生了一些自回归的事情。
它到底在说什么?这张幻灯片到底在说什么?
这张幻灯片讲的是,如果你有一个自回归模型,并且它能很好地预测下一个标记,那么它实际上能捕捉到接下来序列的正确分布。而这在当时是相对较新的事情。这并不是字面意义上的第一个自回归神经网络,但我认为它是第一个我们真正相信如果你训练得很好,那么你将获得任何你想要的自回归神经网络。在我们的案例中,彼时的任务是谦逊的,今天看来依旧谦逊,但当时却是极为大胆的翻译工作。
现在我将向你们展示一些你们中许多人可能从未见过的古老历史,它被称为LSDMS。对于那些不熟悉的人来说,LSTM是穷人深度学习研究人员在变形金刚之前所做的事情。它基本上是一个Resnet,但旋转90度。所以这是一个LSTM,它出现在它之前,就像是一个稍微复杂的共振。你可以看 到有一个积分器,现在被称为剩余流。但是你有一些乘法正在进行中。这有点复杂,但这就是我们所做的。这是一个旋转90度的Resnet。
我想强调的另一个来自那次旧演讲的酷炫特点是我们使用了并行化。但不仅仅是任何并行化,我们使用了流水线,如同每个GPU一层的证据所示。
流水线是明智的吗?
正如我们现在所知,流水线并不是明智之举。但在那时,我们没有那么聪明。所以我们使用了这个,并在使用八个GPU时获得了3.5倍的加速。
而结论幻灯片在某种意义上,正是当时演讲的结论幻灯片,是最重要的幻灯片。因为它清楚地阐明了可以说是扩展假设的起点,也就是说,如果你拥有一个非常大的数据集,并且训练一个非常大的神经网络,那么成功是有保证的。有人可以争辩,如果你是宽容一点的话,这确实是在发生的事情。
我想提到另一个想法。而这个,我声称,是经得起时间考验的真正想法。这是深度学习本身的核心理念。这是 连接主义的理念。这是一个思想,如果你允许自己相信人工神经元在某种程度上类似于生物神经元,那么这会给你信心,相信非常大的神经网络不需要与人类大脑同等规模。它们可能会小一些,但可以配置它们做几乎所有人类所能做的事情。这仍然是有区别的,因为人类大脑还会想办法重新配置自己。
我们使用的最佳学习算法需要的数据信息点与参数数量相同。在这方面,人类仍然更优秀。不过,这导致了我所称的“预训练时代”的到来。
预训练时代是指我们所讨论的GPT-2模型、GPT-3模型和缩放法则。我想特别提到我的前同事Alec Radford、Jared Kaplan和Dario Amodei,感谢他们做出的真正贡献。这一切推动了我们今天看到的所有进步,尤其是超大型神经网络。它们在巨大数据集上进行异常庞大的训练。
但是,预训练如我们所知无疑将会结束。预训练将会结束。它为什么会结束?
因为虽然计算能力通过更好的硬件、更 好的算法和更大的集群在增长,但所有这些都在不断增加你的计算能力。可是数据并没有增长,因为我们只有一个内部网。你甚至可以说,数据是人工智能的化石燃料。它像是某种方式被创造出来的,现在我们使用它,但我们已经达到了数据的巅峰,再也不会有更多了。我们必须处理我们拥有的数据。我仍然认为这会让我们走得很远,但这只是一个内部网。
所以,在这里我会稍微放肆一下,推测一下接下来会发生什么。实际上,我不需要推测,因为很多人也在推测,我会提到他们的推测。你可能听过“代理”的说法。这很常见,我相信最终会发生某些事情,但人们觉得某些代理是未来。更具体地说,还有些模糊的方向是合成数据。
但合成数据是什么意思?
弄清楚这一点是一个大挑战,我确信不同的人在这里都会有各种有趣的进展。以及推理时间计算,或者最近在 O1 模型中看到的比较生动的东西。这些都是人们在预训练之后尝试弄清楚该做什么的例子。这些都是非常好的事情。我想提一个来自生物学的例子,我觉得这 真的很酷。这个例子是这样的。
很多年前,在一个会议上,我看了一场演讲,有人展示了一张图表。图表显示了哺乳动物的身体大小和大脑大小之间的关系。在这个例子中,是以质量来衡量的。我记得他们在讨论中提到,生物学里一切都那么混乱,但在这里,你有一个罕见的例子,动物的身体大小和大脑之间有着非常紧密的关系。我出于好奇,对这张图产生了兴趣。
于是我在谷歌上寻找这张图。在谷歌图片中,找到了一张相关的图片。这个图像有趣的是,上面展示了各种不同的哺乳动物,以及非人类的灵长类动物,这基本上属于同一类群体。根据我的了解,类人猿是与人类在进化上密切相关的亲属,比如尼安德特人,还有许多其他的,可能称为能人。他们都在这里。有趣的是,他们的脑-体比的斜率指数不同,这很酷。这意味着有先例,有生物学找出某种不同缩放的例子,显然有些东西是不同的,所以我觉得这很酷。
顺便说一下,我想强调,这个x轴是对数尺度。你看,这里是100,这里是1,000,10,000,100,000,以克为单位:1克,10克,100克,1,000克。所以,事情有可能会有所不同。我们正在做的事情,迄今为止所扩展的事情,其实是我们最初找到的扩展方式。毫无疑问,整个领域,所有在这里工作的人,将会找出该做什么。
但是,我想在这里谈一谈,我想花几分钟时间来推测一下更长远的未来。我们都朝哪里走呢?我们在取得所有这些进展,真是令人惊讶。十年前,当您回顾这个领域时,还记得一切是多么无能吗?您当然可以说,即使已经有深度学习技术,但看到它的实际应用仍然难以置信。我无法完全表达那种感觉。
您知道,如果您在过去两年才加入这个领域,与计算机对话并得到回应是理所当然的事情,这就是计算机的本质。然而,这并不总是如此。
我想稍微谈谈超级智能,这显然是这个领域的发展方向。这是我们在这里构建的内容。超智能的特点是,它在质量上将与我们现有的技术截然不同。
接下来一分钟,我的目标是尝试给您一些具体的直觉,让您自己能够推理出它会有多么不同。现在我们拥有令人难以置信的语言模型及其出色的聊天机器人,它们甚至可以做到一些事情,但在某种程度上又奇怪地不可靠,会感到困惑,同时在评估中表现出惊人的超人能力。因此,如何调和这个问题真的很不清楚。但最终,系统迟早会实现具备代理能力的目标。目前,这些系统在有意义的层面上还 不是代理。它们只是微弱地开始具有代理性功能。系统实际上会进行推理。
顺便提一下推理的问题:一个进行推理的系统,推理越多,越不可预测。我们习惯的深度学习非常可预测,因为其本质上是在复制人类的直觉反应。
如果我们考虑到0.1秒的反应时间,我们大脑中的处理就是直觉。所以我们赋予了人工智能一些直觉。但是推理却是不可预测的,我们看到了一些早期的迹象。其中一个原因是,因为下棋的人工智能,即便是对最优秀的人类棋手来说,也是不容易预料的。
因此,我们将不得不面对极其不可预测的人工智能系统。它们将从有限的数据中理解事物,不会感到困惑,而这些都是目前的重大限制。顺便说一下,我并不是在谈论如何,也不是在谈论何时。我只是说这会发生。当所有这些事情发生时,加上自我意识,因为为什么不呢?自我意识是有用的。它是我们自己的一部分,是我们自己世界模型的一部分。当所有这些事情汇聚在一起时,我们将拥有与今天截然不同的质量和属性的系统。它们将拥有令人难以置信和惊人的能力。但是,这样的系统所带来的问题,我将把它留作想象的练习。这与我们习惯的非常不同。
而且,我会说,预测未来肯定也是不可能的。真的,各种事情都是可能的。但在这个振奋人 心的音符上,我将结束。非常感谢。谢谢。
(全场长时间掌声)
Q&A:
在2024年的今天,你认为还有其他属于人类认知一部分的生物结构值得以类似的方式探索吗?或者你对任何方式感兴趣?
所以,我回答这个问题的方式是,如果你或者某人有一种特定的洞见,认为我们都非常愚蠢,因为大脑显然在做某些事情,而我们却没有,这可以做的话,他们应该去追求它。我个人不这样做。这要看你所关注的抽象层次。也许我会这样回答,对生物启发的人工智能有很大的渴望。你可以在某种程度上认为,生物启发的人工智能是非常成功的,因为深度学习的所有内容都是生物启发的人工智能。但另一方面,生物启发是非常有限的,这仅仅使用神经元,这就是生物启发的全部程度。更详细的生物启发一直很难获得。但我不会将其排除在外。我认为如果有人有独特的洞见,他们可能会看到一些东西,这会是有用的。
我有一个关于自动更正的问题。所以问题来了。你提到推理可能是未来建模的核心方面之一,也可能是一个区分因素。我们在一些海报展示中看到的是当今模型中的幻觉,我们分析我的方式,也许你纠正了我,你是这方面的专家。但是,我们分析模型 今天是否出现幻觉的方式,是因为我们知道模型无法推理出我们使用的统计分析的危险,比如说,未来偏离平均值的一些标准差或其他数值,不是吗?你认为一个给出推理的模型能够自我纠正,有点自动更正,这将成为未来模型的一个核心特征,这样就不会有太多的幻觉,因为模型会识别出一个可能太深奥的问题。但是当幻觉发生时,模特能够推理和理解?这个问题有感知吗?
是的,答案也是肯定的。我认为你所描述的极其可信。你应该去检查。我不会排除目前一些早期推理模型可能已经在发生这种情况,我不知道。但是,从长远来看,为什么不呢?这是Microsoft Word的一部分,自动纠正是核心特性。
我认为将其称为自动纠正实际上是对其的不公。当你提到自动更正时,你似乎觉得它比自动更正要宏伟得多,但撇开这一点,答案是肯定的。
谢谢。伊利亚。我喜欢这个结局,神秘地留下了悬念,他们会取代我们吗?或者他们更优越吗?他们需要权利吗?
这是一种新的人类智力物种。所以,也许他们需要这些东西。我觉得现实生活中的一些人认为我们需要为这些事物争取权利。
我有一个与此无关的问题。我们该如何创造正确的激励机制,让人类实际上能够以给予他们作为智人所拥有的自由的方式来创造它?
我觉得在某种意义上,这就是人们应该更多反思的问题。但是关于我们应该创造什么激励结构的问题,我并不觉得我知道。我对回答这样的问题没有信心,因为这就像在谈论创造某种自上而下的政府结构,我不知道。这也可能是一种加密货币。
我的意思是,有 BitTensor,有些事情。我觉得我不是评论加密货币的合适人选,但是。但是,顺便说一下,你所描述的事情有可能会发生,确实在某种意义上,如果你有人工智能,而他们所想的只是与我们共存并拥有权利,也许那样还不错。
但我不知道,我的意思是事情是如此不可预测。我犹豫要发表评论,但我鼓励这种推测。
感谢你的精彩演讲。我叫Shalev Lifshitz,来自多伦多大学,与希拉一起工作。谢谢你所做的所有工作。我想问一下,你认为lum的广义多跳推理是不分布式的吗?所以好吧,这个问题假设答案是是或否,这个问题不应该用是或否来回答,因为这是什么意思?
这个问题的假设是答案只有“是”或“否”,但实际上问题不应该只用“是”或“否”来回答。因为“分布外泛化”是什么意思呢?分布内的意思是什么,分布外的意思又是什么?由于这是一次关于时间的讨论,我想说很久以前,在人们使用深度学习之前,依赖的是字符串匹配这类的方法,比如N-元组。对于机器翻译,人们使用的是统计短语表。你能想象吗?他们有成千上万 的复杂代码,这真的让人难以理解。
在那时,泛化的意思是数据集中措辞是否完全不同。现在,我们可能会说,我的模型在某个数学竞赛上获得了很高分数,但也许这些数学题或某个论坛上的一些讨论谈论的是相同的想法,因此它被模型记住了。好吧,你可以说,也许它在分布内,也许这是记忆,但我也认为我们对什么算作泛化的标准确实大幅提高了,这种提高是戏剧性的,不可思议的,如果你一直在跟踪的话。
因此,我认为答案在某种程度上可能不如人类好。我认为人类的确在概括方面做得更好,但与此同时,他们确实在某种程度上越界概括。
我希望这是一个有用的同义反复的回答。谢谢。
以上内容由【通义效率】生成。https://tongyi.aliyun.com/efficiency/
① 快速多语种互译 ② 视频记录转文字 ③ 区分访谈发言人 ④ 要点快速提取总结 ⑤ 生成思维导图 ⑥ 笔记随心记