字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

2024-11-06 20:48IT之家 - 沛霖（实习）

IT之家 11 月 6 日消息，单图视频驱动技术，即只需一张静态照片和一段驱动视频，即可生成高质量、“电影级”的视频。

字节跳动智能创作团队推出最新单图视频驱动技术 X-Portrait 2，该模型不仅能保留原图的 ID，还能捕捉并迁移从细微到夸张的表情和情绪，简化了现有动作捕捉、角色动画和内容创作流程。

▲ 左一图为原图、左一图右下为驱动视频，左二图为 X-Portrait 2 效果

不同于以往依赖人脸关键点检测的单图驱动方法，X-Portrait 2 构建了一个表情编码器模型，通过一种端到端自监督训练框架，能够从大量人像视频中自学习 ID 无关的运动隐式表征。

▲ 左一为驱动视频截图，其他为生产效果

进一步将这个编码器与强大的生成式扩散模型相结合，即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练，X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。