GPT与托管LLM成本分析

TLDR:对于每天 1000 个请求范围内的较低使用率,ChatGPT 比使用部署到 AWS 的开源 LLM 更便宜。 对于每天数以百万计的请求,部署在 AWS 中的开源模型的成本更低。 (截至 2023 年 4 月 24 日撰写本文时。)

大型语言模型正在席卷全球。 Transformers 于 2017 年推出,随后是 BERT、GPT 和 BART 等突破性模型——数百个参数; 并能够执行多种语言任务,如情感分析、问答、分类等。

几年前——来自 OpenAI 和谷歌的研究人员记录了多篇论文,表明具有超过 100 亿个参数的大型语言模型开始显示出涌现的能力,它们似乎理解语言的复杂方面并且在他们的反应中几乎像人类一样。

GPT-3 论文表明,参数超过 10-1000 亿的模型仅需几十个提示即可显示出令人印象深刻的学习能力。

然而,这些 LLM 的资源密集程度如此之高,以至于它们在经济上难以大规模部署。 也就是说,直到最近 ChatGPT 的到来。 在 ChatGPT 接口发布后不久,OpenAI 使 ChatGPT API 易于访问,因此开发人员可以在他们的应用程序中使用 ChatGPT。 让我们看看这些成本的规模和经济可行性。

1、ChatGPT API 费用

ChatGPT API 按使用情况定价。 它的成本为 0.002 美元/1K 代币。 每个令牌大约是一个单词的 3/4——单个请求中的令牌数量是提示 + 生成的输出令牌的总和。 假设您每天处理 1000 个小文本块,每个文本块是一页文本——即 500 个单词或 667 个标记。 这相当于每天 0.002 美元/1000x667*1000= ~1.3 美元。 还不错!

但是,如果你每天要处理一百万份此类文档,会发生什么情况? 然后是每天 1,300 美元或每年约 50 万美元! ChatGPT 从一个很酷的玩具变成了数百万美元业务的主要支出(因此人们希望成为收入的主要来源)!

2、开源大模型

ChatGPT 出来后,出现了一堆开源计划。 Meta 推出了 LLaMA——一个具有数十亿参数的 LLM 模型,其性能优于 GPT-3。 斯坦福随后在 52K 指令跟踪演示上对 LLaMA 的 7B 版本进行了微调,发现他们的Alpaca模型优于 GPT-3。

一组研究人员最近还展示了一个名为 Vicuna 的 13B 参数微调 LLaMA 模型,其质量达到了 ChatGPT 的 >90%。 公司可能选择使用开源生成模型而不是 OpenAI 的 GPT 模型系列的原因有多种。 其中包括对 OpenAI 中断的敏感性降低、更易于定制以及可能更便宜。

虽然开源模型可以免费使用,但托管和部署它们的基础设施却不是。 虽然像 BERT 这样的早期转换器模型可以在配备良好 CPU 和基本 GPU 的个人计算机上轻松运行和微调,但 LLM 需要更多资源。 一种常见的解决方案是使用 AWS 等云提供商来托管和部署此类模型。

让我们深入了解托管开源模型的 AWS 成本。

3、AWS 费用

首先,让我们讨论在 AWS 中部署模型并将它们作为 API 提供服务的标准架构。 通常分为三个步骤:

  • 使用 AWS Sagemaker 将模型部署为端点。
  • 将 Sagemaker 端点连接到 AWS Lambda。
  • 通过 API 网关将 Lambda 函数作为 API 提供

当客户端对 API 网关进行 API 调用时,它会触发 lambda 函数,该函数解析该函数并将其发送到 Sagemaker 端点。 然后模型端点进行预测,并将信息发送到 Lambda。 Lambda 对此进行解析并将其发送至 API,并最终返回至客户端。

Sagemaker 成本对托管模型的计算实例类型很敏感。 LLM 使用相当大的计算实例。

AWS 官方的这篇文章详细介绍了如何在 AWS 上部署 Flan UL2——一个 200 亿参数的模型。

文章使用了 ml.g5.4xlarge 实例。 虽然上面的 Sagemaker 定价没有列出这个特定实例价格的成本,但它似乎在大约每小时 5 美元左右。 每天 150 美元! 这只是托管实例,我们还没有谈到 Lambda 和 API 网关的成本。

下面详细介绍了 AWS lambda 定价——它是内存使用和请求频率的函数。

假设需要 5 秒才能获得响应。 考虑到我们将数据路由到 AWS Sagemaker 端点,128 MB 足够了。 因此,对于 1000 个请求,这将花费 5*.1281000$0.0000166667= 0.01 美元,或者对于 100 万个请求,费用为 10 美元。

最终成本是用于 API 网关的:

如你所见,API 网关非常便宜——每百万请求 1 美元。

因此,最终在 AWS 上托管像 Flan-UL2 这样的开源 LLM 的成本是每天 1000 个请求为 150 美元,每天 100 万个请求为 160 美元。

但是我们总是需要如此昂贵的计算实例吗? 对于像 BERT 这样有数以百万计参数的小型语言模型——你可以使用更便宜的实例,比如 ml.m5.xlarge,每小时 0.23 美元,每天大约 5 美元。 与似乎理解语言复杂细微差别的 LLM 相比,这些模型也非常强大,并且更具体地针对任务和训练数据。

4、结束语

那么哪个更好呢? 使用像 OpenAI 的 GPT 系列这样的付费服务 LLM? 还是开放获取法学硕士? 这取决于用例:

注意:由于这是一个快速发展的领域,很可能由于大规模的需求,在不久的将来,部署成本会大幅下降。 (请记住,虽然托管开源 LLM 是一项挑战,但像 BERT 这样具有数以百万计参数的小型语言模型对于特定任务来说仍然是一个很好的选择。我写过关于如何微调基于 BERT 的模型的文章 诸如问答和垃圾邮件检测之类的任务可以产生接近人类的表现。)

但是哪个模型更好呢? ChatGPT 和 GPT-4 的响应比开源 LLM 的响应更相关。 然而,开源模型正在迅速迎头赶上。 使用开源模型而不是封闭的 API 可能有很好的理由。

公司希望根据其特定数据源微调开源模型。 ChatGPT 和后续 OpenAI 模型的性能可能不如针对特定领域数据微调的开源模型; 由于此类模型的通用性。 我们已经看到像 BloombergGPT 这样的领域特定模型在生成 AI 方面做出了强有力的举措。

哦——让我们祈祷 OpenAI 不会提高 ChatGPT API 的价格。 当 ChatGPT API 面世时,令人惊喜的是,该 API 的价格比早期的 GPT-3 API 便宜 10 倍。

我们生活在激动人心的时代!


原文链接:LLM Economics: ChatGPT vs Open-Source

BimAnt翻译整理,转载请标明出处