ChatGPT 引爆了芯片界「百家争鸣」,谷歌、微软、亚马逊纷纷入局芯片大战,英伟达恐怕不再一家独大。
ChatGPT 爆火之后,谷歌和微软两巨头的 AI 大战战火,已经烧到了新的领域 —— 服务器芯片。
如今,AI 和云计算都成了必争之地,而芯片,也成为降低成本、赢得商业客户的关键。
原本,亚马逊、微软、谷歌这类大厂,都是以软件而闻名的,而现在,它们纷纷斥资数十亿美元,用于芯片开发和生产。
各大科技巨头研发的 AI 芯片
根据外媒 The Information 的报道以及其他来源,这三家大厂现在已经推出或计划发布 8 款服务器和 AI 芯片,用于内部产品开发、云服务器租赁或者二者兼有。
「如果你能制造出针对 AI 进行优化的硅,那前方等待你的将是巨大的胜利」,研究公司 Forrester 的董事 Glenn O’Donnell 这样说。
付出这些巨大的努力,一定会得到回报吗?
答案是,并不一定。
英特尔、AMD 和英伟达可以从规模经济中获益,但对大型科技公司来说,情况远非如此。
它们还面临着许多棘手的挑战,比如需要聘请芯片设计师,还要说服开发者使用他们定制的芯片构建应用程序。
不过,大厂们已经在这一领域取得了令人瞩目的进步。
根据公布的性能数据,亚马逊的 Graviton 服务器芯片,以及亚马逊和谷歌发布的 AI 专用芯片,在性能上已经可以和传统的芯片厂商相媲美。
亚马逊、微软和谷歌为其数据中心开发的芯片,主要有这两种:标准计算芯片和用于训练和运行机器学习模型的专用芯片。正是后者,为 ChatGPT 之类的大语言模型提供了动力。
此前,苹果成功地为 iPhone,iPad 和 Mac 开发了芯片,改善了一些 AI 任务的处理。这些大厂,或许正是跟苹果学来的灵感。
在三家大厂中,亚马逊是唯一一家在服务器中提供两种芯片的云服务商,2015 年收购的以色列芯片设计商 Annapurna Labs,为这些工作奠定了基础。
谷歌在 2015 年推出了一款用于 AI 工作负载的芯片,并正在开发一款标准服务器芯片,以提高谷歌云的服务器性能。
相比之下,微软的芯片研发开始得较晚,是在 2019 年启动的,而最近,微软更加快了推出专为 LLM 设计的 AI 芯片的时间轴。
而 ChatGPT 的爆火,点燃了全世界用户对于 AI 的兴奋。这更促进了三家大厂的战略转型。
ChatGPT 运行在微软的 Azure 云上,使用了上万块英伟达 A100。无论是 ChatGPT,还是其他整合进 Bing 和各种程序的 OpenAI 软件,都需要如此多的算力,以至于微软已经为开发 AI 的内部团队分配了服务器硬件。
在亚马逊,首席财务官 Brian Olsavsky 在上周的财报电话会议上告诉投资者,亚马逊计划将支出从零售业务转移到 AWS,部分原因是投资于支持 ChatGPT 所需的基础设施。
在谷歌,负责制造张量处理单元的工程团队已经转移到谷歌云。据悉,云组织现在可以为 TPU 和在其上运行的软件制定路线图,希望让云客户租用更多 TPU 驱动的服务器。
早在 2020 年,谷歌就在自家的数据中心上部署了当时最强的 AI 芯片 ——TPU v4。
不过直到今年的 4 月 4 日,谷歌才首次公布了这台 AI 超算的技术细节。
相比于 TPU v3,TPU v4 的性能要高出 2.1 倍,而在整合 4096 个芯片之后,超算的性能更是提升了 10 倍。
同时,谷歌还声称,自家芯片要比英伟达 A100 更快、更节能。对于规模相当的系统,TPU v4 可以提供比英伟达 A100 强 1.7 倍的性能,同时在能效上也能提高 1.9 倍。
对于相似规模的系统,TPU v4 在 BERT 上比 A100 快 1.15 倍,比 IPU 快大约 4.3 倍。对于 ResNet,TPU v4 分别快 1.67 倍和大约 4.5 倍。
另外,谷歌曾暗示,它正在研发一款与 Nvidia H100 竞争的新 TPU。谷歌研究员 Jouppi 在接受路透社采访时表示,谷歌拥有「未来芯片的生产线」。
不管怎么说,微软在这场芯片纷争中,依旧跃跃欲试。
此前有消息爆出,微软秘密组建的 300 人团队,在 2019 年时就开始研发一款名为「雅典娜」(Athena)的定制芯片。
根据最初的计划,「雅典娜」会使用台积电的 5nm 工艺打造,预计可以将每颗芯片的成本降低 1/3。
如果在明年能够大面积实装,微软内部和 OpenAI 的团队便可以借助「雅典娜」同时完成模型的训练和推理。
这样一来,就可以极大地缓解专用计算机紧缺的问题。
彭博社在上周的报道中,称微软的芯片部门已与 AMD 合作开发雅典娜芯片,这也导致 AMD 的股价在周四上涨了 6.5%。
但一位知情者表示,AMD 并未参与其中,而是在开发自己的 GPU,与英伟达竞争,并且 AMD 一直在与微软讨论芯片的设计,因为微软预计要购买这款 GPU。
而在与微软和谷歌的芯片竞赛中,亚马逊似乎已经领先了一个身位。
在过去的十年中,亚马逊在云计算服务方面,通过提供更加先进的技术和更低的价格,一直保持了对微软和谷歌的竞争优势。
而未来十年内,亚马逊也有望通过自己内部开发的服务器芯片 ——Graviton,继续在竞争中保持优势。
作为最新一代的处理器,AWS Graviton3 在计算性能上比上一代提高多达 25%,浮点性能提高多达 2 倍。并支持 DDR5 内存,相比 DDR4 内存带宽增加了 50%。
针对机器学习工作负载,AWS Graviton3 比上一代的性能高出多达 3 倍,并支持 bfloat16。
基于 Graviton 3 芯片的云服务在一些地区非常受欢迎,甚至于达到了供不应求的状态。
亚马逊另一方面的优势还表现在,它是目前唯一一家在其服务器中提供标准计算芯片(Graviton)和 AI 专用芯片(Inferentia 和 Trainium)云供应商。
早在 2019 年,亚马逊就推出了自己的 AI 推理芯片 ——Inferentia。
它可以让客户可以在云端低成本运行大规模机器学习推理应用程序,例如图像识别、语音识别、自然语言处理、个性化和欺诈检测。
而最新的 Inferentia 2 更是在计算性能提高了 3 倍,加速器总内存扩大了 4 倍,吞吐量提高了 4 倍,延迟降低到 1/10。
在初代 Inferentia 推出之后,亚马逊又发布了其设计的主要用于 AI 训练的定制芯片 ——Trainium。
它对深度学习训练工作负载进行了优化,包括图像分类、语义搜索、翻译、语音识别、自然语言处理和推荐引擎等。
在一些情况下,芯片定制不仅仅可以把成本降低一个数量级,能耗减少到 1/10,并且这些定制化的方案可以给客户以更低的延迟提供更好的服务。
不过到目前为止,大多数的 AI 负载还是跑在 GPU 上的,而英伟达生产了其中的大部分芯片。
据此前报道,英伟达独立 GPU 市场份额达 80%,在高端 GPU 市场份额高达 90%。
20 年,全世界跑 AI 的云计算与数据中心,80.6% 都由英伟达 GPU 驱动。21 年,英伟达表示,全球前 500 个超算中,大约七成是由自家的芯片驱动。
而现在,就连运行 ChatGPT 的微软数据中心用了上万块英伟达 A100 GPU。
一直以来,不管是成为顶流的 ChatGPT,还是 Bard、Stable Diffusion 等模型,背后都是由每个大约价值 1 万美元的芯片英伟达 A100 提供算力。
不仅如此,A100 目前已成为人工智能专业人士的「主力」。2022 人工智能现状报告还列出了使用 A100 超级计算机部分公司的名单。
显而易见,英伟达已经垄断了全球算力,凭借自家的芯片,一统江湖。
根据从业者的说法,相比于通用芯片,亚马逊、谷歌和微软一直在研发的专用集成电路(ASIC)芯片,在执行机器学习任务的速度更快,功耗更低。
O’Donnell 董事在比较 GPU 和 ASIC 时,用了这样一个比较:「平时开车,你可以用普锐斯,但如果你必须在山上用四轮驱动,用吉普牧马人就会更合适。」
然而尽管已经做出了种种努力,但亚马逊、谷歌和微软都面临着挑战 —— 如何说服开发者使用这些 AI 芯片呢?
现在,英伟达的 GPU 是占主导地位的,开发者早已熟悉其专有的编程语言 CUDA,用于制作 GPU 驱动的应用程序。
如果换到亚马逊、谷歌或微软的定制芯片,就需要学习全新的软件语言了,他们会愿意吗?
参考资料:
https://www.theinformation.com/articles/google-and-microsofts-other-ai-race-server-chips?rc=epv9gi
https://www.theregister.com/2023/05/09/intel_layoffs_coming/
本文来自微信公众号:新智元 (ID:AI_era)
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。