智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

2024-08-28 08:49IT之家(沛霖（实习）)6评

IT之家 8 月 28 日消息，智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。

官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：

3D causal VAE：通过压缩视频数据到 latent space，并在时间维度上进行解码来实现高效的视频重建。
专家 Transformer：将文本 embedding 和视频 embedding 相结合，使用 3D-RoPE 作为位置编码，采用专家自适应层归一化处理两个模态的数据，以及使用 3D 全注意力机制来进行时空联合建模。

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下：

IT之家附相关链接：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

微信开源跨平台数据库框架 WCDB 升级 2.1.7 版：C++ 支持 OpenHarmony 系统

小米：将对外公开超 1000 万行的 Xiaomi Vela 开源代码

开放麒麟 openKylin 新增 LTS 长期支持版，采用“创新版本 + LTS 版本”双轨并行策略

大家都在买广告

热门评论