智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

2024-10-29 16:11IT之家 - 沛霖(实习)

IT之家 10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的扩散模型架构 OmniGen,这是一种用于统一图像生成的多模态模型。

▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合

官方表示,OmniGen 具有以下特点:

  • 统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。

  • 简单性:OmniGen 的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块 (如 ControlNet 或 IP-Adapter),从而大大简化了工作流程。

  • 知识迁移:受益于统一格式的学习,OmniGen 有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。我们还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。

▲ 指代表达生成

IT之家附相关链接如下:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      一大波评论正在路上
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享