ListenHub

8-27

苏哲: 你是不是也玩过AI P图？就是那种，想给自己换个酷炫的发型，或者把家里的猫P到外太空去，结果呢，P出来一个“六亲不认”的版本，看着像你，但又总觉得哪里不对劲。这种“恐怖谷”效应，其实是AI图像编辑一直以来的一个痛点。不过，最近谷歌Gemini的一次重大更新，似乎就是要正面解决这个问题。

苏哲: 今天我们就来聊聊，谷歌DeepMind最新的这个图像编辑模型，到底强在哪儿。这个模型已经被集成到了Gemini应用里，而且在早期预览的时候，口碑就已经炸了，被很多人认为是目前全世界最顶级的图像编辑模型。它最核心的一个亮点，就是解决了我们开头说的那个问题——“神态一致性”。什么意思呢？就是说，不管你是想给自己换个六十年代的蜂窝头，还是想给你家的吉娃娃穿上芭蕾舞裙，AI都能非常精准地保留住你或者你宠物的本来面貌和神态，不会再出现那种“似是而非”的尴尬失真感。

苏哲: 那这到底意味着什么呢？其实呢，这标志着AI图像编辑，正在从过去那种简单的“像素级修改”，真正迈向了“语义级理解”的关键一步。你想想，过去的AI，你让它改图，它可能只是机械地涂抹、替换像素，但它并不真的“认识”照片里的人是谁。而现在，Gemini的这个新模型，它更像是在“理解”了照片的主体之后，再进行有逻辑的“再创作”。换句话说，它认识你了。这对我们普通用户来说，意味着有了更强的掌控力，编辑出来的效果会更满意，也为AI在更多创意场景的应用，打下了更坚实的基础。

苏哲: 当然了，这种更强大的编辑能力，自然也催生了更多元化的应用场景。Gemini这次提供的一系列“高级编辑”功能，就是为了满足我们这些日益增长的创意需求。

苏哲: 现在，Gemini的应用里解锁了好多特别有意思的高级玩法。比如说，你可以上传一张自己的照片，然后随便给AI下指令，让你穿上宇航服、变身中世纪骑士，或者把你放到巴黎铁塔下，整个过程里，你的脸、你的神态都能保持高度一致。更有意思的是，它还支持把好几张照片融合在一起。你可以把自己的照片和你家狗子的照片一起上传，然后告诉AI，我们俩现在正在篮球场上打球，它就能给你生成一张全新的、毫无违和感的合影。

苏哲: 更进一步，它还支持一种叫“多轮编辑”的功能。这就像你在画画，可以一层一层地修改。比如，你先上传一张空房间的照片，让AI把墙刷成蓝色，接着，你又说，在墙边加个书架，然后，再在书架旁放一把椅子。整个过程，AI会一直陪着你，精确地修改你指定的局部，同时又完好地保留其他已经完成的部分。最后，还有一个叫“设计混合”的功能，这个就更酷了。你可以提取一张图片里的风格，比如蝴蝶翅膀的纹理和颜色，然后把它应用到另一张图片里的一双雨靴上。

苏哲: 你看，这些功能的组合，已经让Gemini不再是一个简单的P图美化工具了，它更像一个强大的“创意工作站”。尤其是“多轮编辑”和“设计混合”，这背后体现的是AI在理解复杂指令和保持图像逻辑一致性上的巨大进步。它大大降低了创意的门槛，过去很多需要专业设计师用复杂软件才能实现的效果，现在可能动动嘴就行了。这也预示着，AI未来在个性化内容生产、虚拟试衣、室内设计这些领域，会扮演越来越重要的角色。

苏哲: 不过，随着这些强大功能的推出，一个问题也随之而来：我们怎么知道一张图片是真实的，还是AI生成的呢？确保用户能清晰地了解内容的来源，也变得至关重要。

苏哲: 所以，谷歌也考虑到了这一点。现在，所有通过Gemini应用创建或者编辑的图像，都会带上一个肉眼可见的水印。不仅如此，它还会嵌入一种叫SynthID的、肉眼看不见的数字水印。这么做的目的非常明确，就是要清清楚楚地告诉你：这张图是AI生成的。这个策略对所有用户都一样，不管你是付费还是免费。

苏哲: 说实话，在AI生成内容越来越普遍的今天，主动给内容打上“身份证”，是一个非常负责任的做法。这不仅能帮助我们普通人去区分真实和虚构，也从技术上为防止深度伪造这类滥用行为，提供了一道防线。对用户来说，这能建立信任感；而对谷歌这样的平台来说，这也体现了它在追求技术创新和遵守伦理规范之间，努力寻找一种平衡。

苏哲: 好了，我们来简单总结一下今天聊到的重点。首先，Gemini应用集成了谷歌DeepMind开发的顶级图像编辑模型，它最大的优势，就是能在你P图的时候，高度保持人物或者宠物的外观一致性，不会再P得“面目全非”。其次，Gemini推出了一系列强大的高级编辑功能，比如更换场景服装、融合多张照片、像画画一样多轮修改，还有迁移设计风格，这些都极大地释放了我们的创意能力。最后，所有用Gemini生成的图片，都会被打上可见和不可见的AI水印，这是为了保证内容的透明度，也是一种负责任的体现。

大纲

Gemini 应用推出了由 Google DeepMind 开发的全新顶级图像编辑模型，现已集成到应用中，为用户提供了前所未有的图像创作控制力。该模型特别强调在编辑过程中保持人物或宠物形象的一致性，并提供多项高级编辑功能。所有用户均可使用此功能，且所有AI生成图像均带有可见和隐形的数字水印。

核心功能与集成

Gemini 应用推出由 Google DeepMind 开发的全新图像编辑模型，被誉为“全球顶级”图像编辑模型。
该模型已深度集成到 Gemini 应用中，旨在提供用户更高的图像创作控制力。
全球所有付费和非付费用户均可立即体验此更新的图像编辑功能。

保持主体一致性

核心改进在于能够“保持角色形象”的一致性，确保编辑后的人物或宠物仍能被识别。
解决了“接近但不完全相同”的细微瑕疵，即使进行发型、服装或场景更改，也能保持主体原貌。
用户可以将自己与宠物结合、改变背景或放置在任何想象的地点，同时确保主体形象不变。

高级编辑能力

更换服装或场景: 允许用户将人物或宠物放置到新的场景或穿上不同服装，同时保持其外观不变。
融合照片: 用户可以上传并融合多张照片，创建全新的场景，例如将自己和宠物融合在一张篮球场照片中。
多轮编辑: 支持迭代式编辑，用户可以逐步修改图像的特定部分，同时保留其余部分（如：给空房间刷漆，再添加家具）。
设计混合: 能够将一张图片的风格或纹理应用到另一张图片的对象上（如：花瓣颜色应用到雨靴，蝴蝶翅膀图案用于设计裙子）。

AI生成标识

所有在 Gemini 应用中创建或编辑的图像都包含一个可见的水印。
同时，图像中还嵌入了隐形的 SynthID 数字水印，明确标记其为 AI 生成内容。