小扎豪赌大模型,Meta 重磅推出定制芯片 MTIA v1 和全新超算

全世界都在卷大模型,小扎也急了。如今,Meta 为了发展 AI,在定制芯片和超算上下了大赌注。

Meta 也有纯自研芯片了!

本周四,Meta 发布第一代 AI 推理定制芯片 MTIA v1 和超算。

可以说,MTIA 对 Meta 是一个巨大的福音,尤其是现在各家都在卷大模型,对 AI 算力的需求变得越来越高。

小扎最近表示,Meta 看到了「以有用和有意义的方式向数十亿人介绍人工智能代理的机会」。

显然,随着 Meta 加大对 AI 的投入,MTIA 芯片和超算计划将是 Meta 与其他科技巨头竞争的关键工具,现在没有哪家巨头不在 AI 上投入大量资源。

可以看到,凭着定制芯片和超算,Meta 在 AI 上下了大赌注。

MTIA

在最近的一次线上活动中,Meta 拉开了开发自己的基础设施的序幕。

新芯片全名是 Meta 训练和推理加速器,简称 MTIA。

MTIA 是一种 ASIC,一种将不同电路组合在一块板上的芯片,允许对其进行编程,以并行执行一项或多项任务。

Meta 副总裁兼基础设施负责人 Santosh Janardhan 在一篇博客文章中写道,MTIA 是 Meta「针对推理工作负载的内部定制加速器芯片系列」,它提供了比 CPU「更高的计算能力和效率」,并且「为我们的内部工作负载定制」。

通过结合 MTIA 芯片和 GPU,Janardhan 表示,Meta 相信「我们将为每个工作负载提供更好的性能、更低的延迟和更高的效率。」

不得不说,这是 Meta 实力的投射。其实,一直以来,Meta 在应用 AI 友好型硬件系统方面进展并不迅速。这影响了 Meta 和竞对(如微软、谷歌等)保持同步发展的能力。

Meta 基础设施副总裁 Alexis Bjorlin 在一次采访中表示,构建属于自己的硬件,Meta 就有能力控制堆栈的每一层,包括数据中心设计到培训框架。

这种垂直的整合水平对于大规模推动 AI 研究边界是必不可少的。

在过去的十年里,Meta 花费了数十亿美元聘请顶级数据科学家来构建新型 AI 模型。

Meta 也一直在努力将其许多更宏伟的 AI 创新研究投产,尤其是生成式 AI。

一直到 2022 年,Meta 一直主要用的是 CPU 和专为加速 AI 算法而设计的芯片组合来维持其 AI 的运行。

而 CPU 和芯片的组合在执行这类任务的效率上通常会低于 GPU。

于是 Meta 取消了原本打算在 2022 年大规模推广的定制芯片,转而订购了价值数十亿美元的英伟达 GPU。

引入这些 GPU,Meta 需要对旗下的几个数据中心进行颠覆性的重新设计。

而为了扭转这一局面,Meta 计划开发一款内部芯片,预计于 2025 年推出。这款内部芯片既能训练 AI 模型,还能运行 AI 模型,可谓性能强大。

主角终于来了 —— 新芯片名叫 MITA,全称 Meta Training and Inference Accelerator.

这款芯片可以用来加速 AI 训练和推理的效率。

研究团队表示,MTIA 是一种 ASIC,指的是一种在一块板上组合不同电路的芯片。通过编程,该芯片能同时执行一项或多项任务。

专为 AI 工作负载定制的 AI 芯片 Meta

要知道,科技巨头公司的竞争说白了玩儿的就是芯片。

比方说谷歌的 TPU,用来训练 Palm-2 和 Imagen。亚马逊也有自己的芯片,用于训练 AI 模型。

此外,有消息称微软也在和 AMD 开发一款叫 Athena 的芯片。

这不,MITA 的到来也是 Meta 不甘示弱的表现。

Meta 表示,2020 年他们创建了第一代的 MITA——MITA v1,采用的是 7nm 工艺。

该芯片内部内存可以从 128MB 扩展到 128GB,同时,在 Meta 设计的基准测试中,MITA 在处理中低复杂度的 AI 模型时,效率要比 GPU 还高。

在芯片的内存和网络部分,还有不少工作要做。随着 AI 模型的规模越来越大,MITA 也即将遇到瓶颈。Meta 需要将工作量分担到多个芯片上。

对此,Meta 表示,会继续完善 MITA 在运行推荐的工作量时每瓦的性能。

早在 2020 年,Meta 就已经为内部工作负载设计了第一代 MTIA ASIC。

此推理加速器是共同设计的全栈解决方案的一部分,包括芯片、PyTorch 和推荐模型。

该加速器采用台积电 7nm 工艺制造,运行频率为 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2TFLOPS。它的热设计功率(TDP)为 25W。

在高层次上,加速器由处理元件 (PE)、片上和片外存储器资源以及互连组成的网格组成

加速器配备了运行系统固件的专用控制子系统,固件管理可用的计算和内存资源,通过专用主机接口与主机通信,并在加速器上协调作业执行。

内存子系统将 LPDDR5 用于片外 DRAM 资源,可扩展至 128GB

该芯片还具有 128MB 的片上 SRAM,在所有 PE 之间共享,为频繁访问的数据和指令提供更高的带宽和更低的延迟

网格包含 64 个以 8x8 配置组织的 PE;PE 通过网状网络连接彼此并连接到内存块。网格可用于运行整个作业,也可以将其划分为多个可以运行独立作业的子网格

MTIA 加速器安装在小型双 M.2 板上,可以更轻松地聚合到服务器中。这些主板使用 PCIe Gen4 x8 链路连接到服务器上的主机 CPU,功耗低至 35W。

带有 MTIA 的测试板示例

MTIA 软件(SW)堆栈旨在为开发人员提供效率和高性能。它与 PyTorch 完全集成,将 PyTorch 与 MTIA 结合使用,就像将 PyTorch 用于 CPU 或 GPU 一样简单。

适用于 MTIA 的 PyTorch 运行时管理设备上的执行和功能,例如 MTIA 张量、内存管理和用于在加速器上调度运算符的 API。

MTIA 软件堆栈

有多种方法可以创作可在加速器上运行的计算内核,包括使用 PyTorch、C / C++(用于手动调优、非常优化的内核)和一种称为 KNYFE 的新领域特定语言。

使用五种不同的 DLRM(从低复杂度到高复杂度)来评估具有代表性生产工作负载的 MTIA

评估发现,与 NNPI 和 GPU 相比,MTIA 更有效地处理低复杂度(LC1 和 LC2)和中等复杂度(MC1 和 MC2)模型。研究者也认识到,他们尚未针对高复杂性(HC)模型优化 MTIA

不过,MTIA 芯片似乎还有很长的路要走 —— 据媒体报道,它要到 2025 年才能问世。

RSC

也许未来的某一天,Meta 能把大部分训练 AI、运行 AI 的工作交给 MITA 来完成。

但就目前而言,还是得更多依赖自己的超算:Research SuperCluster,简称 RSC。

RSC 于 2022 年 1 月首次亮相,与 Penguin Computing、英伟达和 Pure Storage 合作组装,已完成第二阶段的建设。

现在,RSC 包含 2000 个英伟达 DGX A100 系统,16000 个英伟达 A100 GPU。

在全力以赴的情况下,Meta 实现了近 5 exaflops 的算力(一个 exaflop 是每秒 quintillion,即十亿亿次)。

随着分配的 GPU 数量的增加,训练时间可以大大减少。在过去的一年里,Meta 利用这种巨大的规模,已经培训了一些产生影响的项目

此前,Meta 一直在致力于建设「下一代数据中心设计」,争取「优化 AI」,「构建更快、更具成本的效益」。

Janardhan 说,Meta 对超级集群(RSC)人工智能超级计算机的强大功能非常有信心,「我们相信它是世界上最快的人工智能超级计算机之一。

那么问题来了,Meta 为什么要建造这么一台内部使用的超级计算机呢?

首先,别的科技巨头公司给的压力太大了。几年前,微软与 OpenAI 合作,搞了个 AI 超级计算机。最近又表示要和 AMD 合作,在 Azure 云中构建一台新的 AI 超级计算机。

除此以外,谷歌一直在吹捧自己的以 AI 为重点的超级计算机,有 26000 个 Nvidia H100 GPU,完全碾压 Meta。

当然除了这个原因,Meta 还表示,RSC 还允许 Meta 的研究人员使用自己公司生产系统中的真实案例来训练模型。

这与该公司以前的人工智能基础设施不同,后者仅利用开源和公开可用的数据集。

RSC AI 超级计算机用于推动多个领域的 AI 研究边界,包括生成式 AI,Meta 希望为 AI 研究人员提供最先进的基础设施,使他们能够开发模型,并为他们提供一个培训平台来推进 AI 的发展。

在巅峰时期,RSC 可以达到近 5 exaflops 的计算能力,该公司声称这使其成为世界上最快的计算能力之一,远远超过世界上许多最快的超级计算机。

Meta 表示,它将使用 RSC 来训练 LLaMA。

Meta 表示,最大的 LLaMA 模型是在 2048 个 A100 GPU 上训练的,这花了 21 天。

随着 Meta 试图在其他科技巨头越来越猛的人工智能计划中脱颖而出,Meta 显然对 AI 硬件也要有一番布局。

除了 MTIA 之外,Meta 还在开发另一种芯片来处理特定类型的计算工作负载。

这种芯片被称为 Meta 可扩展视频处理器 (MSVP),是 Meta 内部开发的首个 ASIC 解决方案,专为满足视频点播和实时流媒体的处理需求而设计。

早在几年前,Meta 就开始构思定制的服务器端视频芯片,并在 2019 年宣布推出用于视频转码和推理工作的 ASIC。

而 Meta 的定制芯片,目的就是在加快视频工作的处理速度,如流媒体和转码等等。

Meta 的研究人员表示,「未来,MSVP 将使我们能够支持更多 Meta 最重要的用例和需求,包括短视频 —— 能够高效交付生成 AI、AR / VR 和其他元宇宙相关的内容。」

紧追猛赶的 Meta

如果今天这些产品要找一个共同点的话,那就是 Meta 正在拼命地试图加快它涉及人工智能的步伐,特别是生成式 AI。

今年 2 月份,小扎就曾表示要成立一个新的顶级生成式 AI 团队。

用他的话说,就是要给公司的研发来一波氮气加速。

首席科学家 Yann LeCun 表示,Meta 计划部署生成 AI 工具来在虚拟现实中继续大展宏图。

目前,Meta 正在探索 WhatsApp 和 Messenger 中的聊天体验,Facebook 和 Instagram 和广告中的视觉创建工具,以及视频和多模式体验。

不过,在某种程度上,Meta 也感受到了来自投资者的压力正变得越来越大,投资者担心 Meta 的发展速度不够快,无法占领生成式 AI 的市场。

对于像 Bard,Bing Chat 或 ChatGPT 这样的聊天机器人,Meta 疲于应对。在图像生成方面也没有取得什么进展。

而后者正是另一个爆炸性增长的关键领域。

如果相关专家的预测正确,生成式 AI 软件的总潜在市场可能达到 1500 亿美元。

高盛(Goldman Sachs)预测,它将使 GDP 增长 7%。

就算是其中的一小部分,也可以消除 Meta 在 AR / VR 头显、会议软件等元宇宙技术投资方面所损失的数十亿美元。

Meta 负责增强现实技术的部门 Reality Labs 发布的报告中显示,Meta 上季度净亏损 40 亿美元。

参考资料:

  • https://ai.facebook.com/blog/meta-training-inference-accelerator-AI-MTIA/

  • https://ai.facebook.com/blog/supercomputer-meta-research-supercluster-2023/

  • https://ai.facebook.com/blog/meta-ai-infrastructure-overview/

本文来自微信公众号:新智元 (ID:AI_era)

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      全部评论
      一大波评论正在路上
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享