华为徐直军:不是每个企业都要训练自己的基础大模型
9 月 19 日下午消息,在今日的华为全联接大会 2024 上,华为副董事长、轮值董事长徐直军发表《拥抱全面智能化时代》的主题演讲。
他表示,智能化必将是一个长期过程,算力是智能化的关键基础。而算力是依赖半导体工艺的,但我们必须要面对一个现实,那就是,美国在 AI 芯片领域对中国的制裁长期不会取消,而中国半导体制造工艺由于也受美国制裁,将在相当长时间处于落后状态,这就意味着我们所能制造的芯片的先进性将受到制约。这是我们打造算力解决方案必须面对的挑战。
立足中国,只有基于实际可获得的芯片制造工艺打造的算力才是长期可持续的。华为的战略核心就是,充分抓住人工智能变革机遇,基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点 + 集群”系统算力解决方案,长期持续满足算力需求。
他提到,大模型的技术突破大大加速了智能化的进程,一段时间以来,各行各业几乎言必称大模型,纷纷建设 AI 算力,纷纷训练大模型。这对于华为这样的算力提供商而言,无疑是重大利好。但从长远发展角度考虑,第一、不是每个企业都要建设大规模 AI 算力。AI 服务器,特别是 AI 算力集群不同于通用 x86 服务器,对供电、散热等数据中心机房环境要求极高,且随着大模型越来越大,AI 算力也将走向更大规模,而且变化节奏快,AI 服务器快速升级换代,数据中心机房面临要么浪费、要么满足不了需求的困境。每个企业都要思考适合自己的获取 AI 算力的方式,而不仅仅是建设自己的 AI 算力。
第二、不是每个企业都要训练自己的基础大模型。训练出基础大模型,关键是数据,而准备足够多的高质量数据是很大挑战,基础大模型预训练数据量进入 10 万亿 tokens 量级,这对于企业来说,不仅意味着高成本,同时是否能获取到足够的数据量也是挑战。基础大模型参数量在持续增大,模型迭代和优化难度大,通常需要数月到数年时间完成模型迭代训练。每个企业都应聚焦自身核心业务,自行训练基础大模型会影响 AI 尽快赋能核心业务。
第三、不是所有的应用都要追求“大”模型。从华为盘古在行业的实践看,十亿参数模型可以满足科学计算、预测决策等业务场景的需求,比如降雨预测、药物分子优化、工艺参数预测,在 PC、手机等端侧设备上,十亿参数模型也有广泛应用。而百亿参数模型可以满足面向 NLP、CV、多模态等大量特定领域场景的需求,比如知识问答、代码生成、坐席助手、安全检测。面向 NLP、多模态的复杂任务,可以用千亿参数模型来完成。
“所以我们认为,企业需要的是根据自身不同业务场景需求,选择最合适的模型,通过多模型组合,解决问题,创造价值。”
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。