预测下一个标记

正如我们在之前的文章中讨论过的,人工智能的核心原则是封装知识的能力。人工智能模型需要能够理解世界,才能做出正确的预测和高质量的输出。这些高质量的输出是人工智能模型将大量小的、连续的预测链接在一起的结果。对于大型语言模型,这称为下一个标记预测(next token prediction)。然而,这个概念以不同的形式普遍存在,不仅仅是在语言中。预测下一个标记或下一个状态是实体探索世界的基本方式。通过预测接下来可能发生的事情,大脑开始通过建立因果关系来形成对世界的理解。在这里,我们将介绍下一个标记预测概念的强度和普遍性。

对于那些不知道的人,让我解释什么是下一个标记预测。标记(token)是一个预定义的单位。在语言模型中,它可以是一个单词、一个单词的一部分(想想单词末尾的“s”)或多个单词(例如“and the”或“lives in”)。我们称它们为标记,因为它们是构成数据结构的标准和非标准单元的组合。在对序列(例如句子)进行建模时,最容易以线性方式构建该序列。这意味着未来的标记会受到先前标记的影响。下一个标记预测采用已知的序列直到当前点,然后预测下一个标记。对于语言生成,这是以所谓的“自回归”方式完成的,其中模型的输出被反馈到模型中以继续预测/生成其他标记,直到你获得足够的响应。它看起来像这样:

图 1. 下一个标记预测的示例。深蓝色表示选定的可能性,浅蓝色表示其他可能性。

ChatGPT 首次推出时,很多人都说“它只是一个下一个单词预测器”。我不知道现在是否听到有人这么说。人们没有或不明白的是,为了能够成功地预测下一个单词或标记,模型需要对它所接触的结构和环境有极好的理解。如果没有固有的结构理解,如果知识没有很好地封装,预测下一个单词或标记就会失败。

这在多模态模型(multimodal models)中更为明显。很多人刚刚开始了解多模态模型。也许你正在看到语言从使用 LLM(大型语言模型)转向 LMM(大型多模态模型)。你可能不知道的是,它们几乎是相同的技术。一个仅针对语言进行训练,即单模嵌入空间,另一个使用多种模式,因此是多模态嵌入空间。关键区别在于增加了摄取和对齐不同输入模式(文本、视频、音频、图像等)的能力。为了对齐这些不同的模式,我们创建了组合嵌入空间并执行下一个标记预测的版本。

标记可以是任何东西。大多数人以语言的角度思考,因为这是他们接触过的东西,但标记可以是任何东西。它可以是一帧、一张图片、一个音频片段、一个状态、一个分子位置、一种力等。你不这么认为吗? Google 使用与大型语言模型预测下一个单词相同的方法来创建基础模型,该模型可以预测时间序列中的下一步(实际上是多个步骤)。一个通用模型可以预测任何时间序列的下一个值。温度。商品价格。公众情绪。传感器读数。消费者购买。任何东西。为什么它有效?因为他们将时间窗口中的值视为标记并应用典型的变换方法。然后 Salesforce 用 Moirai 做到了这一点,然后亚马逊用 Chronos 做到了这一点。

使用时间有助于理解为什么下一个标记预测是世界的基本功能。下一个标记预测已经存在很长时间了,但我们经常将其称为别的东西。每当你有一个模拟来建模物理过程时 - 汽车撞到墙上、流体流过螺旋桨、化学反应、制造过程、篮球锦标赛预测等 - 你需要一步一步地运行它。为什么?一个步骤的状态决定了下一步的条件。因此,计算只能按顺序进行。因为你不能一次解决所有问题 - 这就是你运行模拟的原因 - 而且因为你需要穿越时间。时间的流动控制着标记或状态序列发生的顺序,就像下面这个汽车碰撞的仿真视频

汽车碰撞仿真

让我们通过观察熵(entropy)来建立一些对下一步预测的直觉。熵与时间流有什么关系?熵只朝一个方向移动——更加分散。熵产生不可逆过程。也就是说,你不能从煎锅上的鸡蛋变回一个没有破裂的鸡蛋。相反,你只能从未破裂的鸡蛋变成煎锅里有裂痕的鸡蛋。这个过程是连续的。当你在煎锅边缘敲鸡蛋时,它会破裂。我们知道这一点,因为我们已经积累了对世界的了解,因此知道某个序列何时是由初始动作引起的。事实上,如果你不知情地得到了一个木蛋,当你去做煎蛋卷时你会感到困惑。因此,我们需要认识到,预测接下来会发生什么,这实际上是下一个标记预测,需要了解世界是如何运作的。

物理模型对它所建模的环境有理解,主要由物理方程定义。同样的理解是你的身体如何能够灵活地穿越环境、获取资源并继续生存。通过了解过去发生的事情,我们了解未来可能发生的事情。这个过程就是学习。这就是为什么下一个标记预测是世界的基本功能。这是我们体验宇宙的方式,也是我们对宇宙运作方式的理解。我们利用这种理解为我们周围的世界创造产品和基础设施。当意外或错误预测发生时,也会引发学习。模型不断学习并不断改进。我们不断进步。宇宙继续前进。


原文链接:Next Token Prediction is a Fundamental Function of the World

BimAnt翻译整理,转载请标明出处