丨智能时代

.hd-box .hd-fr

截胡 OpenAI，谷歌全模态模型首次解禁！Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注

2025-03-13 15:05新智元(新智元)32评

OpenAI 的全模态模型没来，谷歌的全模态图像生成器倒是抢先上线了！Gemini 2.0 Flash 中上线的原生图像生成功能，动动嘴就能 PS，还能轻松制作海报和表情包，动漫和漫画圈已经沸腾了。

就在刚刚，谷歌 Gemini 支持原生图像生成功能了！这是谷歌首个向公众发布的全模态图像生成器。

现在，所有开发者都可以使用 Gemini 2.0 Flash 进行原生图像生成了，使用 Gemini API 和 Google AI Studio 中的实验版本即可。

全模态图像生成器，跟其他 AI 生图模型最大的区别在哪里？

因为它自身具备的超强推理能力，能结合现实世界的知识生成更符合上下文的图像，理解更多细节，更遵循文化背景特征。

其中，全程都是由 Gemini 模型完成，无需调用其他模型，只需通过自然语言提示。

此外，传统的 AI 生图器需要分开处理文本和图片，它则是能同时输出文本和插图，保持惊人的一致性。

真正的多模态能力：同时理解文字、图像，以及二者联系
理解世界知识：能做智能推理，结合现实世界知识生成准确内容
自然语言交互：仅用对话修改图片，真正实现动嘴 PS

下面这张图，就是用 Gemini 2.0 Flash 生成的，包括黑板上的文字。

此前很多图像生成模型，都死在渲染长序列文本上，这个致命弱点，竟被它克服了。

有趣的是，其实第一个展示全模态图像生成的是 OpenAI，比谷歌早了整整 8 个月。

而就在昨天，OpenAI 要发布第一个全模态模型的消息更是传得沸沸扬扬，没想到今天，竟是谷歌成功发布了第一个版本。

谷歌的这个新功能，可以根据上下文生成相关图像，支持对话式编辑，还能在图像中生成长文本。

比如，你只要动动嘴，告诉模型给牛角面包加点巧克力边，啪的一下，它在对话框里立马给你满意的图像。

跟它说：可以在桌子上加一些花吗？它立刻给你在桌子上加上花瓶。

如果告诉它，自己不太满意，更喜欢红色郁金香，它能在几秒内立刻换成你满意的图像。

网友惊呼：太炸了

现在，我们终于有了原生图像输出功能，这样图像就能遵循智能的上下文了。

这个模型的真正厉害之处，就在于它真正能够理解多模态的信息。

比如在这位网友的实测中，它就可以直接从 URL 解析 YouTube 视频，给出内容摘要，还是基于时间戳分析的。

手快的网友，已经开始疯狂实测了。

生成 30 岁的中年女性不同角度的两张照片，一致性非常惊艳。

以后你想要的照片，想怎么 p 就怎么 p。

一辆小汽车、一个模特，拿着小汽车的广告大片实时生成。

甚至，你还可以用 Gemini 来迭代图像，创建任何游戏！

Gemini 2.0 Flash 的自画像，有点意思。

有人表示，这个功能太酷了，自己手中的不少图，将焕然一新。

左右滑动查看

有人说，谷歌的首个原生图像生成功能，可能是今年最棒的发布之一。它的编辑过程和一致性如此简洁，忍不住让人期待何时能在 Gemini 上集成。

当然，也有人实测后发现，有些情况下很难让模型输出不带文字的图片，即使尝试了五六种不同的 prompt 也不行。

比如，让它根据奥尔特曼昨天分享的 OpenAI 创意写作模型写的元小说，来创作一幅画。

文字太多的话，它就失去了想象能力，只能输出纯文字。

小编亲测了一下，结果也是如此。

对此，谷歌 Gemini 团队的研究者现身表示，会改进这项功能，并且建议如果让模型先以文本形式思考，可能会更好。

但好笑的是，「一只马骑宇航员」这样的图像，它依然无法生成。

漫画和动漫圈，沸腾了

这次，Gemini 2.0 Flash 直接攻陷了漫画圈。

现在用它来生成漫画，只需要动动嘴的功夫。

有网友尝试后，发现自己根本停不下来。只需一个简单的提示，就能进行选择性修改，而不会破坏整个图像。

他激动地表示，「用它来制作漫画和故事分镜会变得非常轻松」。

给漫画加个色，也是一句话的事儿。

就连漫画角色的动作 —— 抬起手臂，也能用嘴完成。而且，输出图像与原图保持了高度的一致性。

动漫圈的二次元们更是激动不已，有人惊呼，这是史上最佳动漫模型！

动漫创作的全流程，它都能依指示完成，比如把素描转换为线稿；填充基础色；添加一些柔和的阴影，光源位于左上角；添加一个室内背景，使其与当前的光源和阴影环境相匹配，使用合适的角度；调整为单色灰度，以符合轻小说插画风格等等。

更多的测试 demo，自己体会。

故事分镜

Gemini 2.0 Flash 还可以支持文字 + 配图输出的形式，比如绘本、食谱之类的，它都能通通拿下。

有网友让它去生成，一个「乌鸦喝水」的经典故事。

从内容到配图，Gemini 2.0 Flash 对故事把控度，和现实逻辑，非常合理。

更惊艳的是，以下这些全部都是一次性输出的。

还有网友让 Gemini 2.0 解释生命的意义，只用图像回答。

模型一镜到底，输出了一大串图像。网友表示，「事实上，大部分的写作是不连贯的，让这件事更加怪异」。

恶搞表情包

用 Gemini 2.0 Flash 制作表情包，也是一个不错的选择。

网友上传一张照片后，要求它把人替换成吉卜力工作室风格的狗，并配上一把机关枪。

Gemini 2.0 Flash 瞬间完成替换，像那么回事儿。

又或者，给 Hugging Face 抱抱脸加个胡子。

再比如，给经典表情包，配上文字。

一个提示，完成多个编辑

更令人惊掉下巴的是，Gemini 2.0 Flash 还可以根据一个提示，完成图像多处编辑。

沃顿商学院教授 Ethan Mollick 表示，如果你使用过 LLM 图像生成器，你会知道它们很难控制：LLM 需要向一个独立的图像生成工具发送提示词，而不是直接生成图像。

而 Gemini 是首个公开发布的「完全多模态」LLM，能够直接生成图像。

下面这个例子中，是 Mollick 在一家本地手工艺品店拍的照片，提示中核心要求是 —— 把这本小册子改成关于拿破仑的主题，子任务有多个：

将文本修改为「Napoleon Crochet」，字体保持不变。调整图片，使其与拿破仑相关，同时保留白色括号和图像中的其他元素。确保头部朝向与原图一致，图片保持纵向格式。将价格更改为 $99.00。

看到 Gemini 2.0 Flash 生成的图片后，他完全惊到了，并表示生成的艺术风格竟然完全匹配。

原生图像生成，四大亮点

去年 12 月，谷歌首次将 Gemini 2.0 Flash，向内部测试者推出了原生图像生成的功能。

经过几个月的优化打磨，就在巴黎开发者日期间，正式向支持 Google AI Studio 所有地区开放。

开发者们可以通过这个平台，选择 Gemini 2.0 Flash 实验版本 ——gemini-2.0-flash-exp，或通过 Gemini API 即可上手新功能。

如上测试中，不难看出，Gemini 2.0 Flash 是一款集多模态输入、增强推理能力、自然语言理解于一身的模型，能够直接生成图像。

接下来，一起看看 Gemini 2.0 Flash 在多模态输出上的几大亮点：

1 文本与图像结合

假设你正在创作一个奇幻冒险的故事，只用文字描述情节，Gemini 2.0 Flash 就能自动生成与故事配套的插图。

更厉害的是，它还能在整个故事中，保持角色和场景的一致性。

如果对插图风格、叙述方式不满意，你可以直接给出反馈，Gemini 2.0 Flash 会根据你的意见重新调整故事，或优化图像。

2 对话式图像编辑

传统的图像编辑，往往需要专业软件和复杂的操作，而 Gemini 2.0 Flash 让你通过自然语言对话，就能完成一切。

只要告诉它你的想法，模型就会实时调整，并在多轮对话中不断优化。

这种方式不仅适合快速迭代创意，还能帮助你在探索不同风格时，节省大量的时间。

3 世界知识理解

与其他图像生成模型不同，Gemini 2.0 Flash 的独特优势在于，融合了世界知识和增强推理能力。

这意味着，它不仅能生成美观的图像，还更符合现实逻辑。

比如，当你让它生成一份巧克力曲奇饼干食谱，并绘制插图，Gemini 2.0 Flash 的表现着实令人惊艳。

当然，作为语言模型，Gemini 2.0 Flash 并非绝对完美，偶尔需要稍作调整。

4 文本渲染

对于大多数图像生成模型来说，准确呈现长短文字一直是个难题 —— 要么格式混乱，要么字符模糊，甚至拼写错误层出不穷。

但 Gemini 2.0 Flash 在这方面表现，非常抢眼。

内部基准测试表明，它在文本渲染上的性能，优于主流竞品。

不论是制作广告、社交媒体帖子，甚至是邀请函，Gemini 2.0 Flash 都能清晰、准确呈现文字内容。

用 Gemini API 快速上手

现在，开发者可以直接通过 Gemini API 测试 Gemini 2.0 Flash 图像生成模型了。

from google import genaifrom google.genai import typesclient = genai.Client(api_key="GEMINI_API_KEY")response = client.models.generate_content(model="gemini-2.0-flash-exp",contents=("Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."),config=types.GenerateContentConfig(response_modalities=["Text", "Image"]),)

Gemini 团队研究人员为此还做了一个邀请广大开发者适用的图像，快点上手吧。

参考资料：

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
https://x.com/OfficialLoganK/status/1899853465922175427

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

谷歌人工智能图像融合

谷歌更新 Chrome 扩展程序联盟广告政策，禁止 PayPal Honey 式恶意行为

谷歌 DeepMind 推出新 AI 模型，机器人未经训练也能执行现实任务

从聊天机器人到智能玩具：人工智能正在中国蓬勃发展

大家都在买广告

热门评论

查看更多评论