Google 于 8 月 26 日正式发布 Gemini 2.5 Flash Image 模型,确认其就是此前在网络上走红的「nano-banana」AI 图像生成器。该模型现已在 Gemini 应用、Google AI Studio 和 Vertex AI 中提供服务。
Gemini 2.5 Flash Image 是 Google 最新的图像生成和编辑模型,相比其他领先模型具有更低的延迟。该模型专注于字符和场景一致性,能够将多张图片混合成单一图像,保持角色在丰富故事情节中的一致性,并使用自然语言进行定向转换。
用户只需向 Gemini 提供一张图片和文本提示,AI 就能保持用户的外观特征并进行所需的编辑。该模型还能根据指令将两张不同的图片合并为一张照片,或将一张图片的元素应用到另一张图片中创建新图像。
在技术特性方面,Gemini 2.5 Flash Image 利用 Gemini 的世界知识和增强推理能力来创建符合现实世界逻辑的图像,特别适合创建详细且逼真的图像,例如烹饪食谱的插图。与大多数图像生成模型不同,该模型能够准确渲染长文本序列,避免格式错误或拼写错误。
定价方面,Gemini 2.5 Flash Image 按每 100 万输出 token 收费 30 美元,每张图片对应 1290 个输出 token,单张图片费用为 0.039 美元(合人民币约 0.28 元)。
为便于开发者使用,Google 对 AI Studio 的「构建模式」进行了重大更新。开发者可以通过简单的提示词快速测试模型功能,创建自定义 AI 应用,并可直接从 Google AI Studio 部署或将代码保存到 GitHub。
(Google Developers Blog)