.hd-box .hd-fr

全球最强开源生图 AI 模型:Ideogram 4.0 登场

2026-06-04 13:58IT之家(故渊)0评

IT之家 6 月 4 日消息,Ideogram 昨日(6 月 3 日)发布博文,宣布推出 Ideogram 4.0 开放权重文文生图模型,基于跑分数据是全球最佳开源生图 AI 模型。

该模型核心规模为 9.3B 参数,延续近期开源模型的单流架构路线,让文本 tokens 与图像 tokens 共享同 1 个自注意力序列,并把设计控制放在训练和推理格式的中心。

架构方面,该模型包括 Qwen3-VL-8B-Instruct 文本编码器、可训练的 34 层单流 DiT(扩散 Transformer)、Euler 流匹配采样器,以及冻结的 KL 自动编码器。

官方展示的样例显示,该模型可以生成覆盖人物、场景和设计类图像,适合需要图片创作、视觉排版和文字海报的用户尝试。IT之家附上相关图片如下:

该模型最突出的能力是文字绘制。模型可在图像中更准确地呈现较长文本,这对海报、商品图、封面和社媒素材很关键。

Ideogram 还通过训练图片中的对象和文本边界框,让模型理解元素位置关系。配合结构化 JSON(数据交换格式)字幕数据训练后,用户可更清楚地用提示词指定版式、对象位置和文本布局。

DesignArena 的排名显示,Ideogram 4.0 超过 Nano Banana Pro,位列全球第 4。该榜单采用隐藏模型名称后由人类评价生成结果质量的方法,因此这项成绩来自人工观感评估,具有较高可信度。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
大家都在买广告
热门评论
查看更多评论