摩尔线程大模型智算加速卡 MTT S4000 发布,配备 48GB 显存
IT之家 12 月 19 日消息,摩尔线程今日宣布,首个全国产千卡千亿模型训练平台 —— 摩尔线程 KUAE 智算中心揭幕仪式在北京成功举办,宣告国内首个以国产全功能 GPU 为底座的大规模算力集群正式落地,大模型智算加速卡 MTT S4000 也同步发布。
IT之家附 MTT S4000 参数如下:
摩尔线程大模型智算加速卡 MTT S4000,采用第三代 MUSA 内核,单卡支持 48GB 显存和 768GB/s的显存带宽。基于摩尔线程自研 MTLink1.0 技术,MTT S4000 可以支持多卡互联,助力千亿大模型的分布式计算加速。同时,MTT S4000 提供先进的图形渲染能力、视频编解码能力和超高清 8K HDR 显示能力,助力 AI 计算、图形渲染、多媒体等综合应用场景的落地。尤为重要的是,借助摩尔线程自研 MUSIFY 开发工具,MTT S4000 计算卡可以充分利用现有 CUDA 软件生态,实现 CUDA 代码零成本迁移到 MUSA 平台。
官方表示,摩尔线程 KUAE 智算中心解决方案以全功能 GPU 为底座,是软硬一体化的全栈解决方案,包括以 KUAE 计算集群为核心的基础设施、KUAE Platform 集群管理平台以及 KUAE ModelStudio 模型服务,旨在以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。该方案可实现开箱即用,大大降低传统算力建设、应用开发和运维运营平台搭建的时间成本,实现快速投放市场开展商业化运营。
摩尔线程 KUAE 支持包括 DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale 在内的业界主流分布式框架,并融合了多种并行算法策略,包括数据并行、张量并行、流水线并行和 ZeRO,且针对高效通信计算并行和 Flash Attention 做了额外优化。目前,摩尔线程支持包括 LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调。基于摩尔线程 KUAE 千卡集群,70B 到 130B 参数的大模型训练,线性加速比均可达到 91%,算力利用率基本保持不变。以 2000 亿训练数据量为例,智源研究院 700 亿参数 Aquila2 可在 33 天完成训练;1300 亿参数规模的模型可在 56 天完成训练。此外,摩尔线程 KUAE 千卡集群支持长时间连续稳定运行,支持断点续训,异步 Checkpoint 少于 2 分钟。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。