英伟达推出 VideoLDM,根据文本可生成 4.7 秒视频

2023-04-20 15:07IT之家 - 故渊

IT之家 4 月 20 日消息,英伟达和康奈尔大学的研究团队合作,近日推出了名为 VideoLDM 模型,可以根据文本描述,自动生成最高分辨率 2048*1280、24 帧、最长 4.7 秒的视频。

英伟达表示该模型配有 41 亿个参数,其中 27 亿个经过视频训练,这符合现代生成式 AI 的标准。IT之家从博文中获悉,英伟达表示通过高效的潜在扩散模型(LDM),能够创建多样化、高质量、高清晰度的视频。

该模型还能创建驾驶场景的视频,视频分辨率为 1024 × 512 像素,最长 5 分钟。英伟达表示目前该项目处于研究阶段,暂时不会向公众开放。

详细报告可以访问:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享