英伟达(NVDA -16.70%)的神奇两年之旅是否即将结束?到目前为止,市场对英伟达最新最强大的图形处理单元(GPU)的需求一直是无法满足的。随着人工智能竞争的加剧,大型科技公司和初创企业纷纷争相购买或租赁尽可能多的英伟达高性能 GPU,以期创造出更好的模型。
但上周,中国人工智能初创公司 DeepSeek 发布了其 R1 模型,震惊了科技界。R1 是一个 “推理” 模型,其性能与 OpenAI 刚刚在 12 月初发布的 o1 推理模型相匹配或超越,但成本却低得多。
能够在有限的计算资源下生成前沿的大型语言模型(LLM),可能意味着未来人工智能公司不再需要购买或租赁如此高成本的计算资源。这对英伟达和去年的人工智能赢家来说,后果可能是毁灭性的。
但一如既往,真相更加复杂。
什么是 DeepSeek?
DeepSeek 是从一家名为 High-Flyer 的量化对冲基金中分拆出来的人工智能实验室。首席执行官梁文峰于 2015 年创立了 High-Flyer,并在 2023 年 ChatGPT 震撼发布后开始了 DeepSeek 的创业。
自那时起,DeepSeek 一直在构建人工智能模型,报道称在限制之前购买了 10,000 个英伟达 A100,这些是当前 Blackwell 芯片的前两代产品。DeepSeek 还 reportedly 拥有一组英伟达 H800,这是一种为中国市场设计的受限或减速版本的英伟达 H100。值得注意的是,H100 是英伟达在最近推出 Blackwell 之前的最新一代 GPU。
R1 震惊世界
1 月 20 日,DeepSeek 发布了其基于 V3 LLM 的首个 “推理” 模型 R1。推理模型相对较新,使用一种称为强化学习的技术,基本上推动 LLM 沿着思维链条前进,如果遇到 “墙”,则会回退,然后探索各种替代方法,最终得出答案。因此,推理模型能够比直接问答模型更精确地回答复杂问题。
令人难以置信的是,R1 在多个基准测试中能够达到或甚至超越 OpenAI 的 o1,同时据称训练成本仅为一小部分。
我们谈论的成本到底有多低?R1 的论文声称该模型的训练相当于仅花费 560 万美元的租赁 GPU 小时,这与 OpenAI 和其他美国领先公司据称花费的数亿美元相比,实在是微不足道。DeepSeek 的收费大约是 OpenAI 的 o1 运行成本的三十分之一,而梁文峰则表示 DeepSeek 的收费仅是 “略有盈利”。专家估计,Meta Platforms(META 1.89%)的 Llama 3.1 405B 模型运行成本约为 6000 万美元的租赁 GPU 小时,而 V3 的成本仅为 600 万美元,尽管 V3 在各种基准测试中超越了 Llama 的最新模型。
DeepSeek 是如何做到的
根据 Kevin Xu 的一篇信息丰富的博客文章,DeepSeek 能够实现这一小奇迹,得益于三个独特的优势。
首先,梁文峰将 DeepSeek 构建为一种理想主义的人工智能研究实验室,没有明确的商业模式。目前,DeepSeek 对希望在其基础上构建产品的其他公司收取少量费用,但否则其开源模型是免费提供的。梁文峰还招募了大量刚从学校毕业或在中国顶尖大学攻读博士学位的年轻人。这导致了一个自由实验和试错的文化,没有太大的期望,使 DeepSeek 与中国的科技巨头区分开来。
其次,DeepSeek 使用自己的数据中心,这使其能够为自己的目的优化硬件机架。
最后,DeepSeek 能够以多种方式优化其学习算法,这些方法结合在一起,使 DeepSeek 最大化其硬件的性能。
例如,DeepSeek 从零开始构建了自己的并行处理算法,称为 HAI-LLM 框架,优化了其有限数量芯片的计算工作负载。DeepSeek 还使用 F8 或 8 位数据输入框架,这是一种比 F32 精度更低的框架。虽然 F8“精度较低”,但它在内存利用率上节省了大量空间,而 R1 的其他过程也能够通过更多高效的计算来弥补精度的不足。DeepSeek 还优化了其负载平衡网络内核,最大化每个 H800 集群的工作量,以确保没有硬件 “等待” 数据。
这些只是 DeepSeek 能够以更少的资源做更多事情的一些创新。但将所有这些 “黑科技” 结合在一起,导致了性能的显著提升。
对英伟达的负面影响是,像 DeepSeek 这样在软件层面进行创新的人工智能公司,可能会减少对硬件的依赖,这可能会影响英伟达的销售增长和利润率。
图片来源:Getty Images。
对于末日论的反驳
尽管 R1 对英伟达来说似乎是个坏消息,但对于英伟达 “注定要失败” 的论点还有几个反驳。
首先,有人对这家中国初创公司在成本估算上是否完全坦诚表示怀疑。根据机器学习研究员 Nathan Lampbert 的说法,560 万美元的租用 GPU 小时数可能没有考虑到一些额外成本。这些额外成本包括在训练大型模型之前的显著预训练小时数、购买 GPU 和建设数据中心的资本支出(如果 DeepSeek 确实建立了自己的数据中心而不是从云服务租用),以及高昂的能源成本。此外,还有 DeepSeek 的工程师薪资问题,因为 R1 有 139 名技术作者。由于 DeepSeek 是开源的,并非所有这些作者都可能在公司工作,但许多人可能确实在公司工作,并获得足够的薪水。
Lampert 估计 DeepSeek 的年度运营成本可能接近 5 亿到 10 亿美元之间。这仍然远低于其美国竞争对手的成本,但显然高于 R1 论文提出的 600 万美元。
还有一些人简单地怀疑 DeepSeek 在芯片获取方面是否坦诚。在最近的一次采访中,Scale AI 首席执行官 Alexandr Wang 告诉 CNBC,他认为 DeepSeek 拥有一个 50,000 H100 集群,但并未披露,因为根据 2022 年的出口限制,这些芯片在中国是非法的。
然而,考虑到 DeepSeek 已经公开发布了其 R1 模型的技术,研究人员应该能够在有限的资源下复制其成功。目前看来,R1 的效率突破似乎更真实。
即使是真的,英伟达也未必完蛋
虽然 DeepSeek 无疑令人印象深刻,但前 OpenAI 高管 Miles Brundage 也警告不要对 R1 的首次亮相过于解读。Brundage 指出,OpenAI 已经推出了其 o3 模型,并很快将推出 o5 模型。虽然 DeepSeek 能够通过新颖的技术成功实现 R1,但其有限的计算能力可能会减缓其扩展和从第一个推理模型中进步的速度。
Brundage 还指出,有限的计算资源将影响这些模型在现实世界中同时执行的能力:
即使这是在保持智能的情况下最小化的版本——已经提炼的版本——你仍然希望在多个现实世界应用中同时使用它。你不会想在改善网络能力、帮助做作业或解决癌症之间做出选择。你希望同时做所有这些事情。这需要并行运行多个副本,生成数百或数千个解决困难问题的尝试,然后选择最佳解决方案。… 为了做一个人类与 AI 的类比,可以考虑爱因斯坦或约翰·冯·诺依曼作为你可以放入人脑中的最聪明的人。你仍然希望有更多的他们。你希望有更多的副本。这基本上就是推理计算或测试时计算——复制聪明的东西。拥有一个小时的爱因斯坦时间总比一分钟要好,我看不出这对 AI 来说会有什么不同。
杰文斯悖论
最后,投资者应牢记杰文斯悖论。这个术语由英国经济学家威廉·斯坦利·杰文斯在 1865 年提出,涉及煤炭使用,这是当技术过程变得更高效时发生的现象。根据杰文斯悖论,如果一种资源的使用效率提高,而不是看到该资源使用量的减少,消费量反而会呈指数增长。增加的需求通常会超过所获得的效率,从而导致对该资源的总体需求增加。
对于 AI 来说,如果训练先进模型的成本下降,可以预见 AI 将在我们的日常生活中被越来越多地使用。根据这一悖论,这实际上应该会增加对计算能力的需求——尽管可能更多是用于推理而不是训练。因此,这可能会奇怪地使英伟达受益。另一方面,据信 AI 推理可能相对于训练对英伟达的竞争更为激烈,因此这可能是一个负面因素。但这个负面因素将源于更多的竞争,而不是计算需求的减少。
底线是,未来几年对 AI 计算的需求应该会持续大幅增长。毕竟,在 1 月 24 日,Meta Platforms 首席执行官马克·扎克伯格宣布 Meta 将建设一个几乎与曼哈顿一样大的 AI 数据中心,并将其资本支出提高到 600 亿到 650 亿美元的范围,远高于 2024 年 380 亿到 400 亿美元的范围。
这一公告是在 DeepSeek 发布四天后发布的,因此扎克伯格不可能不知道这一点。然而,他仍然认为 AI 基础设施支出的巨大 50% 以上的增长是合理的。
毫无疑问,DeepSeek 的出现将对 AI 竞赛产生影响。但与其说这是对英伟达和其他 “七大巨头” 公司的 “游戏结束”,不如说现实会更加复杂。
随着 AI 竞赛的推进,投资者将不得不评估哪些公司拥有真正的 AI“护城河”,因为 AI 商业模式以惊人的速度和意想不到的方式发展,正如 DeepSeek R1 刚刚展示的那样。
文章来自长桥证券,作者:Motley Fool
原创文章,作者:投资之家,如若转载,请注明出处:https://www.moneyhome.com/1729.html