节点概述
节点标识:
技术栈: Gemini
功能: 调用 Gemini API 进行图像分析、编辑和智能处理
artsmcp-gemini-banana技术栈: Gemini
功能: 调用 Gemini API 进行图像分析、编辑和智能处理
支持的功能
- ✅ 图像理解与分析
- ✅ 图像编辑与修改
- ✅ 风格转换
- ✅ 多图输入(最多4张)
- ✅ 智能图像问答
- ✅ 分行批量处理
节点界面

必填参数
| 参数名称 | 说明 | 示例值 | 备注 |
|---|---|---|---|
| 输入图片1 | 第一张输入图片 | - | 必填,连接图片节点 |
| 输入图片2 | 第二张输入图片 | - | 可选,支持多图输入 |
| 输入图片3 | 第三张输入图片 | - | 可选,支持多图输入 |
| 输入图片4 | 第四张输入图片 | - | 可选,最多支持4张图片 |
| prompt(提示词) | 图像处理的指令描述 | ”将这个角色的服装改为科幻风格,保持脸部特征不变” | 支持中英文 |
| API地址 | Gemini API 端点 | https://api.example.com | 填写实际的 API 地址 |
| 模型 | 选择模型版本 | gemini-3-pro-image-preview-4k | 推荐使用最新版本 |
| API_KEY | Gemini API 密钥 | your-api-key-here | 在控制台获取 |
图片尺寸参数
是否匹配输入图片的尺寸
开启- 输出图片与输入图片尺寸一致(推荐)关闭- 使用指定的宽高比
图片返回格式可选值:
U- 返回图片URL(推荐)B64- 返回Base64编码
输出图片的宽高比例(当”匹配参考尺寸”关闭时生效)可选比例:
1:1- 方形2:3/3:2- 常见照片比例3:4/4:3- 传统屏幕比例4:5/5:4- 社交媒体常用9:16/16:9- 手机/电脑屏幕21:9- 超宽屏
宽高比使用指南
- 方形比例
- 横向比例
- 竖向比例
1:1 - 正方形适用场景:
- 社交媒体头像
- Instagram 发布
- 需要对称构图的场景
高级参数配置
性能参数
API请求超时时间(秒)建议值: 120-300 秒
图像处理可能需要较长时间,特别是复杂的编辑任务
API调用失败时的重试次数范围: 1-5 次
- 网络不稳定时建议增加重试次数
- 设置过高可能导致长时间等待
批量处理参数
是否启用分行提示词功能功能说明:→ 会生成3张不同颜色的图片
- 开启后,提示词中的每一行会被视为独立的任务
- 适合批量处理多个相似的编辑操作
- 会为每行提示词生成一张图片
每行同时发起的请求数量范围: 1-5
调试参数
是否输出详细的调试日志开启后会显示:
- 请求参数详情
- API 调用过程
- 响应数据内容
- 错误堆栈信息
输出说明
生成/编辑的图片文件,自动保存到 ComfyUI 输出目录文件信息:
- 文件格式:
.png - 命名规则:
ComfyUI_[序号].png - 保存路径:
ComfyUI/output/ - 输出结构:tuple 包含 1 个元素(图片列表)
- 使用分行提示词时会输出多张图片
- 每行提示词对应一张输出图片
使用示例
示例 1:图像内容分析
1
连接输入图片
将需要分析的图片连接到”输入图片1”
2
配置分析提示词
3
运行节点
执行后会在日志中看到详细的图片分析结果
此模式主要用于理解图片内容,不会生成新图片
示例 2:图像编辑修改
1
准备原图
连接要编辑的图片到”输入图片1”
2
配置编辑指令
3
设置参数
- 匹配参考尺寸:
开启(保持原图尺寸) - 响应格式:
U - 超时时间:
180秒(复杂编辑需要更长时间)
4
执行生成
运行节点,等待编辑完成
示例 3:多图对比分析
1
连接多张图片
- 输入图片1:第一张对比图
- 输入图片2:第二张对比图
- 输入图片3:第三张对比图(可选)
2
配置对比提示词
3
查看分析结果
在日志中查看详细的对比分析报告
示例 4:批量风格转换
1
连接原图
将一张图片连接到”输入图片1”
2
启用分行提示词
- 启用分行提示词:
true - 每行并发请求数:
2
3
配置多种风格
在提示词中输入(每行一个风格):
4
执行批量处理
运行后会生成4张不同风格的图片
常见问题
Gemini 节点与 Seedream 节点有什么区别?
Gemini 节点与 Seedream 节点有什么区别?
主要区别:
选择建议:
| 特性 | Gemini | Seedream |
|---|---|---|
| 核心能力 | 图像理解 + 编辑 | 图像生成 |
| 输入方式 | 必须有图片输入 | 可以纯文本生成 |
| 最大输入 | 4张图片 | 2张图片 |
| 主要用途 | 分析、修改现有图片 | 创建新图片 |
| 特色功能 | 图像问答、批量处理 | 高质量生成、多尺寸 |
- 需要分析或编辑已有图片 → 使用 Gemini
- 需要创建全新图片 → 使用 Seedream
分行提示词功能如何使用?
分行提示词功能如何使用?
使用步骤:
- 启用”启用分行提示词”选项
- 在提示词中每行写一个独立的指令
- 每行会被当作独立的任务处理
- 最终输出多张对应的图片
- 批量风格转换
- A/B 测试不同的编辑方案
- 生成系列变体图片
- 每行指令应该完整且独立
- 空行会被忽略
- 并发数不要设置过高
为什么有时候编辑效果不理想?
为什么有时候编辑效果不理想?
可能的原因和解决方案:
- 提示词不够明确
- ❌ “改一下这张图”
- ✅ “将背景从室内改为海滩,保持人物不变”
- 原图质量问题
- 确保输入图片清晰
- 避免过度压缩的图片
- 推荐使用高分辨率原图
- 要求过于复杂
- 将复杂任务拆分为多步
- 先完成基础编辑,再进行细节调整
- 模型限制
- 某些特定类型的编辑可能效果有限
- 可以尝试调整提示词表达方式
多图输入时图片的顺序重要吗?
多图输入时图片的顺序重要吗?
是的,图片顺序可能会影响处理结果。建议:
- 输入图片1:主要的参考图片
- 输入图片2-4:辅助参考或对比图片
- 在提示词中明确说明每张图片的作用
如何获取 Gemini API Key?
如何获取 Gemini API Key?
获取步骤:
- 访问 Gemini API 控制台
- 注册或登录账号
- 创建新的 API 项目
- 生成 API 密钥
- 复制密钥配置到节点中
最佳实践
提示词编写技巧
有效的提示词结构:
- 明确任务类型
- 分析:“描述/分析/识别…”
- 编辑:“修改/替换/添加…”
- 转换:“转换为/改为…”
- 详细的要求
- 指定保留的部分
- 说明修改的程度
- 描述期望的效果
- 质量要求
- “保持高清晰度”
- “自然融合”
- “细节丰富”
性能优化建议
提升处理效率:
- 合理设置超时
- 简单任务:60-120秒
- 复杂编辑:180-300秒
- 并发控制
- 测试时:并发数 = 1
- 批量处理:并发数 = 2-3
- 重试策略
- 网络稳定:重试 1-2 次
- 网络不稳定:重试 3-5 次
图片质量保证
输入图片要求:
- 格式支持
- PNG(推荐)
- JPG
- WEBP
- 分辨率建议
- 最小:512x512
- 推荐:1024x1024 以上
- 最大:4096x4096
- 文件质量
- 避免过度压缩
- 保持清晰度
- 合理的文件大小
批量处理策略
高效批量处理:
- 任务分组
- 相似任务一起处理
- 控制每批数量(建议≤5)
- 并发设置
- 根据 API 限制调整
- 监控处理速度
- 避免超过配额
- 错误处理
- 开启详细日志
- 逐个检查结果
- 失败任务单独重试