最新 MLPerf 基准测试结果公布，第四代英特尔至强可扩展处理器再现强大 AI 性能

2023-11-15 16:42之家网站 - -

近期，MLCommons 公布了针对 AI 模型训练的行业标准 MLPerf 训练 v3.1 基准测试结果。其中，内置英特尔^® 高级矩阵扩展（英特尔^®AMX）加速引擎的第四代英特尔^® 至强^® 可扩展处理器作为唯一提交 MLPerf 测试结果的 CPU，在测试中展现出强大的性能，进一步印证了英特尔对加速在云、网、边、端的工作负载中大规模部署 AI 的承诺。

本次，英特尔提交了 ResNet50、RetinaNet、BERT 和 DLRM dcnv2 的测试结果。值得注意的是，在 DLRM dcnv2 这一个新提交的测试模型中，第四代英特尔至强可扩展处理器仅使用四个节点就在 227 分钟内完成了训练。而对于 ResNet50、RetinaNet 和 BERT，第四代英特尔至强可扩展处理器亦展示出了强大的开箱即用的性能。

在通用 AI 工作负载中第四代至强可扩展处理器具备出色性能

在分别于今年 6 月、9 月和 11 月进行的三次测试中，英特尔提交了基于第四代英特尔至强可扩展处理器的多个推理基准测试，结果显示，包括视觉、语言处理、语音和音频翻译模型，以及更大的 DLRM v2 深度学习推荐模型及 60 亿参数大语言模型及计算机视觉与自然语言处理模型 ChatGPT-J 在内，第四代英特尔至强处理器对于通用 AI 工作负载拥有出色的性能。英特尔也与 OEM 厂商合作提交了测试结果，进一步展示了其 AI 性能的可扩展性，以及基于英特尔至强处理器的通用服务器的可获取性，充分满足客户服务水平协议 (SLA)。

第四代英特尔至强可扩展处理器的强大性能为企业提供了“开箱即用”的功能，可以在通用系统上部署 AI 以用于数据预处理、模型训练和部署，从而获得兼具 AI 性能、效率、准确性和可扩展性的最优组合，避免了引入专用 AI 系统的高昂成本和复杂性，其范围覆盖了多个框架、端到端数据科学工具，以及广泛的智能解决方案生态系统。许多企业可以在其现有的企业级 IT 基础设施上使用通用 CPU 进行高性价比、可持续地训练中小型深度学习模型，尤其适用于训练对象是间歇性工作负载的用例。

截止目前，第四代至强可扩展处理器已出货一百万片，并凭借其强劲的 AI 性能被本地生态伙伴广泛应用于众多领域。在于百度智能云 9 月发布的新一代云服务器 BCC 实例中，第四代至强可扩展处理器以 AMX 加速器扩展 AI 算力，从而使百度智能云用户在任何实例上轻松获取原生的强大 AI 能力。得益于英特尔 AMX 指令集针对矩阵运算的强大加速能力，腾讯 BERT 模型 BF16 吞吐量获得大幅提升，从而有效地优化了其 AI 用户的终端体验。通过 AMX INT8 及 BF16 的不同精度数据处理、AVX-512 的深入调优，以及英特尔软件的加持，阿里云地址标准化业务和淘宝搜索的定制化推荐业务实现了大幅性能提升。

与此同时，第四代英特尔至强可扩展处理器亦助力亚信、用友、金蝶和东软等独立软件服务商实现在 OCR 等领域的多项业务升级，助力其成功应对来自不同应用场景的多样化 AI 工作负载需求。

致力于推动 AI 无处不在，英特尔不仅打造包括第四代英特尔至强可扩展处理器在内的硬件产品，亦通过开源的软件堆栈和开放的生态为生态伙伴提供全方位助力，旨在满足千行百业对多重性能、能效和易用性的动态要求，进一步推动 AI 应用落地。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。