谷歌新模型的算力已是GPT|加密货币三大交易所

原创：李欣帅

谷歌正凭借强大的算力储备和基础设施快速研发下一代AI大模型。AI“一哥”的位置被OpenAI暂时取代之后，该位置或许即将重回谷歌手中。据SemiAnalysis报道，谷歌下一代大模型Gemini的训练算力已达GPT-4的5倍。

众所周知，算力是AI大模型研发的“超级引擎”，它能让模型更快地学习、分析数据。算力不仅影响着模型的研发进度，还直接关系到模型的性能和可靠性。

因此，在AI热潮席卷全球的当下，引发了一场前所未有的“算力争夺战”。从大型企业到创业公司，都在争抢提供算力资源的GPU，最终导致GPU供不应求。

就连OpenAI这样早早就手握大量GPU资源的公司如今都面临GPU短缺问题。在今年6月，OpenAI的CEO Sam Altman曾提到，OpenAI 现在最大问题来源于GPU。由于GPU短缺，客户对OpenAI提供的API的可靠性和速度有所抱怨。而更长上下文等功能的开放也受限于GPU。而为解决GPU短缺等问题，OpenAI目前正积极谋求融资。

与此同时，在OpenAI等公司为GPU犯愁时，谷歌有着自家设计的TPU（张量处理单元）。TPU是谷歌开发的人工智能加速器专用集成电路，于2015年开始在谷歌内部使用。自发布以来，谷歌已经构建了6种不同的AI芯片（TPU、TPUv2、TPUv3、TPUv4i、TPUv4和TPUv5）。

TPU是专门为机器学习设计的芯片，在AI研发的某些方面可能比GPU更高效。并可以高度优化以适应谷歌的软硬件生态和人工智能计算工作负载。尽管TPUv5单个芯片的性能与H100 GPU芯片还有差距，但在谷歌自家的生态系统（如TensorFlow框架）中，TPU通常会有更好的性能和成本效益。

TPU可以很快地处理神经网络中使用的大量矩阵运算。图源：谷歌

据了解，谷歌全新架构的多模态大模型Gemini，正在以令人难以置信的速度迭代。最近的一次迭代算力高达1e26 FLOPS，是GPT-4训练算力的5倍。据SemiAnalysis预测，这一数字有可能在明年年底变为20倍。

谷歌的算力资源仍在快速增长。据报道，OpenAI即使在两年内将GPU总数增加4倍，谷歌的算力资源仍然处于大幅领先地位。目前OpenAI、Meta、CoreWeave、甲骨文和亚马逊的GPU总和仍要小于谷歌拥有的TPUv5数量。

由于算力的重要性，算力资源的差距很可能会成为谷歌拉近并拉开和OpenAI距离的关键因素。毕竟，拥有更多的算力资源意味着能进行更多的实验，更快地迭代模型。

除了在算力方面的优势，谷歌还拥有全球范围内的大规模数据中心，为大模型的训练和部署提供了强大的基础设施。这使得它与其他公司（如OpenAI）竞争时具有明显的优势。这种优势不仅体现在现有的资源上，还体现在其持续增长和未来发展的潜力上。

总体来说，谷歌在资源、技术、生态系统、商业模式和全球战略等多个方面可能具有优势，这使其在大模型的研发和发展方面具有相当的竞争力。至少在训练前的计算规模扩展和研发速度方面，谷歌应该会最终胜出。

相比之下，OpenAI虽然在模型设计和算法研究方面有着前沿的成果，但在硬件资源方面相对较弱。这种差距可能会限制OpenAI在模型规模和应用场景上的拓展能力。

充足的算力资源和高效的基础设施，会成为谷歌在AI研究和商业应用方面的利器，也可能会成为谷歌和OpenAI竞争的重要分水岭。当然，最后还是要看成品如何，也就是谷歌的下一代模型Gemini是否会比GPT-4 更有优势，这一结果可能在未来几个月会见分晓，Gemini据称会在今年秋季发布。它是否会取代ChatGPT的地位值得期待。