中国移动联合研发 2D 数字人说话驱动系统：可生成 7 种情绪，用于 5G 新通话、AI 客服等

2024-12-09 13:04IT之家 - 汪淼

IT之家 12 月 9 日消息，中国移动 12 月 8 日宣布联合南京大学团队研发高保真 2D 数字人说话驱动系统。

作为拥有世界规模第一用户数的通信运营商，中国移动每年的客户服务运营成本巨大。现已广泛普及的智能语音客服虽能完成一定的业务自动应答任务，但依然不及人工客服面对面，一对一的星级服务体验。

针对实际业务存在的痛点，中国移动九天视觉团队联合南京大学邰颖团队，研发高保真 2D 数字人说话驱动系统，旨在为用户提供表情自然、唇音同步和头部姿态和谐的数字人播报对话服务，可应用于智能客服、教育培训、广告营销等场景。

▲ 情感控制的高保真 2D 数字人说话驱动方法

据中国移动官方介绍，2D 数字人说话驱动系统实现根据给定目标人物的照片或视频和任意一段音频，生成与音频同步的目标人物说话视频流。要求生成视频里的人物逼真度高，表情姿态自然，同时需要具有较高的实时性，能做到与语言大模型、音频合成能力有机整合，构建起人物数字替身。

中国移动九天视觉团队联合南京大学研发的高保真 2D 数字人说话驱动系统，在以下三方面开展了技术攻坚和方案创新：

第一，性能实时：相比以往数字人方法，在实时播报的口型生成技术上达到了学术界领先水平，支持中英文数字人口型驱动，在保持效果的情況下达到实时性能 30ms / 帧。
第二，效果领先：研发二阶段学习框架，将数字人说话驱动拆解成：从音频到口型系数和从口型系数到生成人像两部分，降低学习难度，实现更好的生成效果。
第三，情绪控制：引入情绪引导学习模块，支持正常、微笑、惊讶、愤怒、恐惧、悲伤等 7 种主流情绪控制生成能力，赋予生成的播报人人文情感表达能力。

▲ 高兴、悲伤情绪下的数字人说话生成效果

IT之家从中国移动官方获悉，数字人生成技术上实现了端到端的二阶段 30 FPS 实时生成性能，并支持 512*512 人脸区域生成，同时具备高兴、悲伤等 7 种主流情绪控制生成能力。

在评测集 VoxCeleb 指标方面，该技术的口型准确性 LMD（LandMark Distance）达到 4.3，生成自然度 FID 达到 11.1。

中国移动官方表示，该研发成果应用前景广阔，有效降低了创作门槛，提升了生成人物的视觉质量，已为 5G 新通话、和留言小秘书品牌业务的拓展赋能升级。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。