2023大模型TOP 7

在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。 近年来,在 Transformer 架构和 BERT 双向升级的基础上,出现了几种突破性的语言模型,突破了机器理解和生成的界限。

在本文中,我们将深入研究大规模语言模型领域的最新进展,探索每个模型引入的增强功能、其功能和潜在应用。 我们还将研究视觉语言模型 (VLM),这些模型经过训练不仅可以处理文本数据,还可以处理视觉数据。

1、OpenAI  GPT-3

OpenAI 团队推出了 GPT-3,作为为每个新语言任务提供标记数据集的替代方案。 他们建议扩大语言模型的规模可以提高与任务无关的小样本性能。 为了测试这一建议,他们训练了一个名为 GPT-3 的 175B 参数自回归语言模型,并评估了其在二十多个 NLP 任务上的性能。 在少样本学习、单样本学习和零样本学习下的评估表明,GPT-3 取得了可喜的结果,甚至偶尔优于微调模型所取得的最先进的结果。

GPT-3的目标是什么?

  • 当每个新的语言任务都需要标记数据集时,为现有问题提出替代解决方案。

如何解决这个问题?

  • 研究人员建议扩大语言模型的规模,以提高与任务无关的小样本性能。
  • GPT-3 模型使用与 GPT-2 相同的模型和架构,包括修改的初始化、预归一化和可逆标记化。
  • 然而,与 GPT-2 相比,它在 Transformer 的层中使用交替的密集和局部带状稀疏注意力模式,如稀疏 Transformer 中一样。

结果如何?

  • 未经微调的 GPT-3 模型在许多 NLP 任务上取得了可喜的结果,甚至偶尔超越了针对该特定任务进行微调的最先进模型:
  • 在 CoQA 基准测试中,零样本设置中的 F1 为 81.5,单样本设置中的 F1 为 84.0,少样本设置中的 F1 为 85.0,而微调 SOTA 获得的 F1 分数为 90.7。
  • 在 TriviaQA 基准测试中,零样本设置的准确率为 64.3%,单样本设置的准确率为 68.0%,少样本设置的准确率为 71.2%,比现有技术(68%)高出 3.2%。
  • 在 LAMBADA 数据集上,零样本设置的准确率为 76.2%,单样本设置为 72.5%,少样本设置为 86.4%,比现有技术(68%)高出 18%。
  • 根据人类评估,175B 参数 GPT-3 模型生成的新闻文章与真实文章很难区分(准确率仅略高于约 52% 的机会水平)。
  • 尽管 GPT-3 表现出色,但 AI 社区对它的评价却褒贬不一:
“GPT-3 的炒作太过分了。 它令人印象深刻(感谢您的赞美!),但它仍然有严重的弱点,有时会犯非常愚蠢的错误。 人工智能将改变世界,但 GPT-3 只是一个非常早期的雏形。 我们还有很多事情需要弄清楚。” – Sam Altman,OpenAI 首席执行官兼联合创始人。

“我很震惊,从 GPT-3 生成与暴力……或被杀无关的有关穆斯林的文本是多么困难……”——Gradio 首席执行官兼创始人 Abubakar Abid。

“不。 GPT-3 从根本上不理解它所谈论的世界。 进一步增加语料库将使其能够生成更可信的模仿作品,但无法解决其对世界理解的根本缺陷。 GPT-4 的演示仍然需要人工挑选。” – Gary Marcus,Robust.ai 首席执行官兼创始人。
“将 GPT3 的惊人性能推断到未来表明,生命、宇宙和一切的答案只是 4.398 万亿个参数。” ——杰弗里·辛顿(Geoffrey Hinton),图灵奖获得者。

在哪里可以了解有关GPT-3研究的更多信息?

哪里可以获得GPT-3的实现代码?

  • 代码本身不可用,但一些数据集统计数据以及来自 GPT-3 的无条件、未经过滤的 2048 个令牌样本已在 GitHub 上发布。

2、Google LaMDA

对话应用语言模型 (LaMDA) 是通过微调一组专门为对话设计的基于 Transformer 的神经语言模型而创建的。 这些模型最多有 137B 个参数,并经过训练以使用外部知识源。 LaMDA 开发人员牢记三个关键目标:质量、安全和扎实。 结果表明,微调可以缩小与人类水平的质量差距,但模型在安全性和接地性方面的性能仍然低于人类水平。

Google 的 Bard 最近作为 ChatGPT 的替代品发布,由 LaMDA 提供支持。 尽管Bard经常被贴上无聊的标签,但它可以被视为谷歌致力于优先考虑安全的证据,即使谷歌和微软之间为了在生成人工智能领域建立主导地位而展开激烈竞争。

LaMDA的目标是什么?

  • 为开放域对话应用程序构建一个模型,其中对话代理能够就任何主题进行对话,并做出明智的、特定于上下文的、基于可靠来源且符合道德的响应。

LaMDA如何解决这个问题?

  • LaMDA 建立在 Transformer 之上,Transformer 是 Google Research 于 2017 年发明并开源的一种神经网络架构。
  • 与其他大型语言模型(包括 BERT 和 GPT-3)一样,LaMDA 使用 TB 级的文本数据进行训练,以了解单词之间的相互关系,然后预测接下来可能出现的单词。
    然而,与大多数语言模型不同的是,LaMDA 接受了对话训练,以发现区分开放式对话与其他形式语言的细微差别。
  • 该模型还经过微调,以提高其响应的敏感性、安全性和特异性。 虽然“那很好”和“我不知道”之类的短语在许多对话场景中可能有意义,但它们不太可能引发有趣且引人入胜的对话。
  • LaMDA 生成器首先生成几个候选响应,所有这些响应都根据它们的安全性、合理性、具体性和有趣性进行评分。 过滤掉安全分数较低的响应,然后选择排名最高的结果作为响应。

结果如何?

  • 大量实验表明,LaMDA 可以参与各种主题的开放式对话。
  • 一系列定性评估证实,该模型的反应往往是明智的、具体的、有趣的,并且基于可靠的外部来源,但仍有改进的空间。
  • 尽管迄今为止取得了所有进展,但作者认识到该模型仍然存在许多局限性,可能导致产生不适当甚至有害的反应。

在哪里可以了解有关LaMDA研究的更多信息?

哪里可以获得LaMDA的实现代码?

  • LaMDA 预训练架构的开源 PyTorch 实现可在 GitHub 上找到。

3、Google  PaLM

PaLM(Pathways Language Model)是一个拥有 5400 亿个参数、基于 Transformer 的语言模型。 PaLM 使用 Pathways 在 6144 TPU v4 芯片上进行训练,Pathways 是一种新的 ML 系统,可跨多个 TPU Pod 进行高效训练。 该模型展示了在少量学习中进行扩展的好处,在数百个语言理解和生成基准上取得了最先进的结果。 PaLM 在多步推理任务上的表现优于经过微调的最先进模型,并且在 BIG-bench 基准测试中超过了人类的平均表现。

PaLM的目标是什么?

  • 提高对大型语言模型的扩展如何影响小样本学习的理解。

PaLM如何解决这个问题?

  • 关键思想是使用 Pathways 系统扩展 5400 亿参数语言模型的训练:
  • 该团队在两个 Cloud TPU v4 Pod 之间使用 Pod 级别的数据并行性,同时在每个 Pod 中使用标准数据和模型并行性。
  • 他们能够将训练扩展到 6144 个 TPU v4 芯片,这是迄今为止用于训练的最大的基于 TPU 的系统配置。
  • 该模型实现了 57.8% 硬件 FLOP 利用率的训练效率,正如作者声称的那样,这是该规模的大型语言模型迄今为止达到的最高训练效率。
  • PaLM 模型的训练数据包括英语和多语言数据集的组合,其中包含高质量的网络文档、书籍、维基百科、对话和 GitHub 代码。

结果如何?

  • 大量实验表明,随着团队扩展到最大的模型,模型性能急剧提高。
  • PaLM 540B 在多项非常困难的任务上取得了突破性的性能:
  • 语言理解和生成。 所引入的模型在 29 项任务中的 28 项上超越了先前大型模型的少数样本性能,其中包括问答任务、完形填空和句子完成任务、上下文阅读理解任务、常识推理任务、SuperGLUE 任务和 更多的。 PaLM 在 BIG-bench 任务中的表现表明,它可以区分因果关系,以及理解适当上下文中的概念组合。
  • 推理。 通过 8 次提示,PaLM 解决了 GSM8K 中 58% 的问题,这是数千个具有挑战性的小学水平数学问题的基准,超过了之前通过微调 GPT-3 175B 模型获得的最高分 55%。 PaLM 还展示了在需要多步逻辑推理、世界知识和深入语言理解的复杂组合的情况下生成明确解释的能力。
  • 代码生成。 PaLM 的性能与经过微调的 Codex 12B 相当,同时使用的 Python 代码减少了 50 倍进行训练,这证实大型语言模型可以更有效地从其他编程语言和自然语言数据迁移学习。

在哪里可以了解有关PaLM研究的更多信息?

哪里可以获得PaLM的实现代码?

  • PaLM 研究论文中特定 Transformer 架构的非官方 PyTorch 实现可在 GitHub 上找到。 它不不具备伸缩能力,并且仅出于教育目的而发布。

4、DeepMind Flamingo

Flamingo 是一个尖端的视觉语言模型 (VLM) 系列,在包含混合文本和图像的大规模多模态网络语料库上进行训练。 通过这种训练,模型可以使用最少的带注释的示例(作为提示提供)来适应新任务。 Flamingo 融合了关键的架构进步,旨在融合预训练的仅视觉和仅语言模型的优势,处理可变交错的视觉和文本数据序列,并无缝容纳图像或视频作为输入。 这些模型展示了对一系列图像和视频任务(例如视觉问答、字幕任务和多项选择视觉问答)的令人印象深刻的适应性,在几次学习中使用特定于任务的提示设定了新的性能标准。

Flamingo的目标是什么?

  • 为了在使多模式模型能够根据简短指令快速学习和执行新任务方面取得进展:
    广泛使用的范例是在大量监督数据上预训练模型,然后针对特定任务对其进行微调,这种范例是资源密集型的,需要数千个带注释的数据点以及仔细的每个任务超参数调整。
  • 当前使用对比目标的模型允许零样本适应新任务,但无法完成字幕或视觉问答等开放式任务,因为它们缺乏语言生成能力。
  • 本研究旨在引入一种新模型,可以有效解决这些问题,并在低数据情况下展示卓越的性能。

Flamingo如何解决这个问题?

  • DeepMind 推出了的Flamingo VLM 专为各种开放式视觉和语言任务的小样本学习而设计,仅使用少量输入/输出示例。
  • Flamingo 模型是视觉条件自回归文本生成模型,可以处理与图像和/或视频混合的文本标记并生成文本作为输出。
  • Flamingo 的架构包含两个互补的预训练和冻结模型:能够“感知”视觉场景的视觉模型、负责执行基本推理的大型语言模型。
  • 新颖的架构组件以保留在计算密集型预训练期间获得的知识的方式集成这些模型。
  • 此外,Flamingo 模型采用基于感知器的架构,使它们能够摄取高分辨率图像或视频。 该架构可以从广泛且可变的视觉输入特征阵列中为每个图像/视频生成固定数量的视觉标记。

结果如何?

  • 研究表明,与 LLM 一样,VLM 可以从一些输入/输出示例中学习图像和视频理解任务,例如分类、字幕或问答。
  • Flamingo 在少样本学习方面树立了新的基准,在 16 种多模态语言和图像/视频理解任务中展示了卓越的性能。
  • 对于这 16 项任务中的 6 项,Flamingo 超越了最先进的微调性能,尽管它仅使用 32 个特定于任务的示例 - 比当前表现最佳的模型少大约 1000 倍的特定于任务的训练数据。

在哪里可以了解有关Flamingo研究的更多信息?

哪里可以获得Flamingo的实现代码?

  • DeepMind 没有发布 Flamingo 的官方实现。
  • 你可以在 OpenFlamingo Github Repo 中找到所介绍方法的开源实现。
  • 替代的 PyTorch 实现可在此处找到。

5、Salesforce  BLIP-2

BLIP-2 是一种高效且通用的视觉和语言模型预训练框架,旨在规避预训练大型模型日益高昂的成本。 BLIP-2 利用现成的冻结预训练图像编码器和冻结大型语言模型来引导视觉语言预训练,并结合了分两个阶段预训练的轻量级查询转换器。 第一阶段从冻结的图像编码器启动视觉语言表示学习,第二阶段推动从冻结的语言模型进行视觉到语言的生成学习。 尽管可训练参数明显减少,但 BLIP-2 的性能优于最先进的方法,在零样本 VQAv2 上超过 DeepMind 的 Flamingo80B 8.7%,可训练参数少了 54 倍。 该模型还展现了遵循自然语言指令的有前途的零样本图像到文本生成功能。

BLIP-2的目标是什么?

  • 在视觉语言任务上获得最先进的性能,同时降低计算成本。

BLIP-2如何解决这个问题?

  • Salesforce 团队推出了一种新的视觉语言预训练框架,称为 BLIP-2,使用冻结单峰模型进行引导语言图像预训练:
  • 预训练的单模态模型在预训练期间保持冻结状态,以减少计算成本并避免灾难性遗忘的问题。
  • 为了促进跨模态对齐并弥合预训练视觉模型和预训练语言模型之间的模态差距,该团队提出了一种轻量级查询变换器(Q-Former),它充当冻结图像编码器和冻结语言模型之间的信息瓶颈。
  • Q-former 使用新的两阶段策略进行了预训练:第一个预训练阶段执行视觉语言表示学习。 这迫使 Q-Former 学习与文本最相关的视觉表示。第二个预训练阶段通过将 Q-Former 的输出连接到冻结的 LLM 来执行视觉到语言的生成学习。 Q-Former 经过训练,使其输出的视觉表示可以由LLM解释。

结果如何?

  • BLIP-2 在各种视觉语言任务中提供了卓越的、最先进的结果,包括视觉问答、图像字幕和图像文本检索。
  • 例如,它在零样本 VQAv2 上比 Flamingo 好 8.7%。
  • 此外,这种出色的性能是通过显着提高的计算机效率实现的:BLIP-2 的性能优于 Flamingo-80B,同时使用的可训练参数减少了 54 倍。
  • BLIP-2 能够响应自然语言指令进行零样本图像到文本生成,从而为发展视觉知识推理和视觉对话等技能铺平道路。
  • 最后,值得注意的是,BLIP-2 是一种多功能方法,可以利用更复杂的单模态模型来进一步提高视觉语言预训练的性能。

在哪里可以了解有关BLIP-2研究的更多信息?

哪里可以获得BLIP-2的实现代码?

  • 官方 BLIP-2 实现可在 GitHub 上找到。

6、Meta LLaMA

Meta AI 团队声称,在更多令牌上训练的较小模型更容易针对特定产品应用进行重新训练和微调。 因此,他们引入了LLaMA(Large Language Model Meta AI),这是一个具有7B到65B参数的基础语言模型的集合。 LLaMA 33B 和 65B 使用 1.4 万亿个令牌进行训练,而最小的模型 LLaMA 7B 使用 1 万亿个令牌进行训练。 他们专门使用公开可用的数据集,而不依赖专有或受限数据。 该团队还实施了关键的架构增强和训练速度优化技术。 因此,LLaMA-13B 的性能优于 GPT-3,尺寸缩小了 10 倍以上,并且 LLaMA-65B 表现出与 PaLM-540B 竞争的性能。

LLaMA的目标是什么?

  • 证明仅在可公开访问的数据集上训练高性能模型而不依赖专有或受限数据源的可行性。
  • 为研究社区提供更小、性能更高的模型,从而使那些无法访问大量基础设施的人能够研究大型语言模型。

LLaMA如何解决这个问题?

  • 为了训练 LLaMA 模型,研究人员仅使用公开且与开源兼容的数据。
  • 他们还对标准 Transformer 架构进行了一些改进:
  • 采用GPT-3方法,通过标准化每个变压器子层的输入而不是标准化输出来增强训练的稳定性。
  • 受到PaLM模型的启发,研究人员用SwiGLU激活函数代替了ReLU非线性,以提高性能。
  • 受 Su 等人(2021)的启发,他们消除了绝对位置嵌入,而是在网络的每一层都加入了旋转位置嵌入(RoPE)。
  • 最后,Meta AI 团队通过以下方式提高了模型的训练速度:
  • 通过不存储注意力权重或计算屏蔽键/查询分数来使用有效的因果多头注意力实现。
  • 使用检查点来最小化向后传递过程中重新计算的激活。
  • 重叠激活的计算和 GPU 之间通过网络的通信(由于 all_reduce 操作)。

结果如何?

  • 尽管 LLaMA-13B 比 GPT-3 小 10 倍以上,但 LLaMA-13B 仍超越了 GPT-3,而 LLaMA-65B 则与 PaLM-540B 不相上下。

在哪里可以了解有关LLaMA研究的更多信息?

哪里可以获得LLaMA的实现代码?

  • Meta AI 在个案评估的基础上向学术研究人员、与政府相关的个人、民间社会、学术机构和全球行业研究实验室提供 LLaMA 访问权限。 要申请,请转到以下 GitHub 存储库

7、OpenAI 的 GPT-4

GPT-4 是一种大规模、多模式模型,它接受图像和文本输入并生成文本输出。 出于竞争和安全考虑,有关模型架构和训练的具体细节被隐瞒。 在性能方面,GPT-4 在传统基准上超越了之前的语言模型,并在用户意图理解和安全属性方面显示出显着改进。 该模型还在各种考试中达到了人类水平的表现,包括在模拟统一律师考试中取得前 10% 的成绩。

GPT-4的目标是什么?

  • 开发一个大规模的多模式模型,可以接受图像和文本输入并生成文本输出。
  • 开发在广泛范围内表现可预测的基础设施和优化方法。

GPT-4如何解决这个问题?

  • 由于竞争格局和安全影响,OpenAI 决定保留有关架构、模型大小、硬件、训练计算、数据集构建和训练方法的详细信息。他们透露:
  • GPT-4 是一个基于 Transformer 的模型,经过预先训练以预测文档中的下一个标记。
  • 它利用公开数据和第三方许可数据。
  • 该模型使用人类反馈强化学习 (RLHF) 进行了微调。
  • 未经证实的信息表明,GPT-4 并不是像其前身那样的单一密集模型,而是由八个独立模型组成的强大联盟,每个模型包含惊人的 2200 亿个参数。

结果如何?

  • GPT-4 在大多数专业和学术考试中都达到了人类水平的表现,特别是在模拟的统一律师考试中得分进入前 10%。
  • 预训练的基础 GPT-4 模型在传统 NLP 基准上优于现有语言模型和先前最先进的系统,无需特定于基准的制作或额外的训练协议。
  • GPT-4 在遵循用户意图方面表现出显着改进,在 ChatGPT 和 OpenAI API 的 5,214 个提示中,有 70.2% 的响应优于 GPT-3.5。
  • 与 GPT-3.5 相比,GPT-4 的安全性能显着提高,对不允许的内容请求的响应减少了 82%,对敏感请求(例如医疗建议和自残)的政策合规性增加了 29%。

在哪里可以了解有关GPT-4研究的更多信息?

哪里可以获得GPT-4的实现代码?

  • GPT-4 的代码实现不可用。

8、大型(视觉)语言模型的实际应用

近年来最重要的AI研究突破来自于在海量数据集上训练的大型人工智能模型。 这些模型展示了令人印象深刻的性能,并且令人着迷的是人工智能如何彻底改变整个行业,例如客户服务、营销、电子商务、医疗保健、软件开发、新闻业等。

大型语言模型有许多实际应用。 GPT-4 列出了以下内容:

  • 聊天机器人和虚拟助理的自然语言理解和生成。
  • 语言之间的机器翻译。
  • 文章、报告或其他文本文档的摘要。
  • 用于市场研究或社交媒体监控的情绪分析。
  • 用于营销、社交媒体或创意写作的内容生成。
  • 用于客户支持或知识库的问答系统。
  • 用于垃圾邮件过滤、主题分类或文档组织的文本分类。
  • 个性化的语言学习和辅导工具。
  • 代码生成和软件开发协助。
  • 医疗、法律和技术文件分析和协助。
  • 适合残障人士的辅助工具,例如文本到语音和语音到文本转换。
  • 语音识别和转录服务。

如果我们添加视觉部分,可能的应用领域将进一步扩展:

  • 帮助视障人士应对日常视力挑战。
  • 改进对网络上仇恨内容的识别。
  • 为人们的日常生活提供帮助的视觉助手。

关注最近的人工智能突破并思考它们在现实世界中的潜在应用是非常令人兴奋的。 然而,在现实生活中部署这些模型之前,我们需要解决相应的风险和限制,不幸的是,这些风险和限制非常重要。

9、风险和限制

如果你向 GPT-4 询问其风险和限制,它可能会为您提供一长串相关问题。 在筛选此列表并添加一些额外的考虑因素后,我最终得出了现代大型语言模型所具有的以下一组关键风险和限制:

  • 偏见和歧视:这些模型从大量文本数据中学习,这些数据通常包含偏见和歧视性内容。 因此,生成的输出可能会无意中延续基于性别、种族或宗教等因素的刻板印象、冒犯性语言和歧视。
  • 错误信息:大型语言模型可能会生成实际上不正确、具有误导性或过时的内容。 虽然模型是在各种来源上进行训练的,但它们可能并不总是提供最准确或最新的信息。 通常会发生这种情况,因为模型会优先生成语法正确或看起来连贯的输出,即使它们具有误导性。
  • 缺乏理解:虽然这些模型似乎理解人类语言,但它们主要通过识别训练数据中的模式和统计关联来运行。 他们对自己生成的内容没有深入的了解,这有时会导致无意义或不相关的输出。
  • 不当内容:语言模型有时会生成冒犯性、有害或不当的内容。 尽管我们努力尽量减少此类内容,但由于训练数据的性质以及模型无法识别上下文或用户意图,这种情况仍然可能发生。

10、结束语

大型语言模型无疑彻底改变了自然语言处理领域,并在提高各个角色和行业的生产力方面展现出巨大的潜力。 它们能够生成类似人类的文本、自动执行日常任务以及在创造性和分析过程中提供帮助,这使它们成为当今快节奏、技术驱动的世界中不可或缺的工具。

然而,承认并理解与这些强大模型相关的局限性和风险至关重要。 偏见、错误信息和潜在的恶意使用等问题不容忽视。 随着我们继续将这些人工智能驱动的技术融入我们的日常生活,必须在利用其能力和确保人类监督之间取得平衡,特别是在敏感和高风险的情况下。

如果我们成功地负责任地采用生成式AI技术,我们将为人工智能和人类专业知识共同推动创新并为所有人创造更美好世界的未来铺平道路。


原文链接:Most Powerful 7 Language (LLM) and Vision Language Models (VLM) Transforming AI in 2023

BimAnt翻译整理,转载请标明出处