AI 模型指南
NGMC 集成了多种 AI 模型,用于图像、视频和音频生成。每个模型都有独特的能力、强项和局限。本指南帮你选对模型、用好模型。
图像模型
通过文本提示词和参考图像生成、编辑静态图像。
| 模型 | 速度 | 最高分辨率 | 参考图像 | 核心优势 |
|---|---|---|---|---|
| GPT Image 2 | ~45 秒 | 4K (3840x3840) | 支持 | 提示词忠实度高、支持编辑、三档画质 |
| Nano Banana Pro | ~45 秒 | 4K (6336x5504) | 最多 6 张 | 专业级品质、多轮编辑 |
| Nano Banana 2 | ~15 秒 | 4K (4096x4096) | 最多 14 张 | 最快、支持最多参考图像、0.5K 草图模式 |
视频模型
从文本、图像生成视频,或延展已有片段。
| 模型 | 速度 | 最高分辨率 | 时长 | 音频 | 核心优势 |
|---|---|---|---|---|---|
| Veo 3.1 | ~2 分钟 | 4K | 4 / 6 / 8 秒 | 原生音频 + 对白 | 顶级品质、4K、视频延展 |
| Veo 3.1 Fast | ~45 秒 | 720p | 4 / 6 / 8 秒 | 原生音频 + 对白 | 快速迭代、视频延展 |
| Seedance 2.0 | ~2 分钟 | 1080p | 4–15 秒(连续可选) | 可选原生音频 | 电影级品质、多模态参考、图像 + 视频 + 音频混合输入 |
| Seedance 2.0 Fast | ~45 秒 | 1080p | 4–15 秒(连续可选) | 可选原生音频 | Seedance 的快速变体,能力一致 |
音频模型
生成音效、音乐和环境音。
| 模型 | 速度 | 时长 | 核心优势 |
|---|---|---|---|
| Lyria 3(Clip) | ~30 秒 | 最长 30 秒 | 音效与短乐句的快速迭代 |
| Lyria 3(Pro) | ~1 分钟 | 最长 2 分钟 | 更高品质的音乐与氛围音景 |
在提示词里引用图像
你可以在提示词里使用 @ 提及 来精准告诉模型如何使用每张参考图像。
工作方式
在提示词输入框里输入 @ 即可打开引用选择器。选中一张图像后,类似 @[Image 1] 的提及会被插入到该位置。生成时,模型会在你文字的那个精确位置 以行内方式 看到这张图像,从而获得准确的上下文。
示例:
基于 @[Image 2] 再添加一只布偶猫,并把背景替换为 @[Image 1] 中的景物。
模型会在"基于"之后看到 Image 2,在"背景替换为"之后看到 Image 1,从而清楚哪张图像用于何种用途。
不使用 @ 提及
如果不使用 @,所有参考图像都会被附加在你的提示词文本之后。模型仍然能看到它们,但需要自己推断如何使用每一张。对于简单情况(单张参考、风格迁移)这就够用。当你需要模型区分多张图像时,请使用 @。
各模型行为
| 模型类型 | @ 提及行为 |
|---|---|
| 图像模型(Nano Banana Pro/2) | 完全交错——图像在被提及的位置以行内方式插入 |
| 视频模型(Veo 3.1/Fast、Seedance 2.0/Fast) | 提及会被解析为提示词文本中的显示名称;图像则作为结构化参考输入传递 |
| 音频模型(Lyria 3 Clip/Pro) | 不适用(仅支持音频参考) |
选择模型
- 正在打磨创意? 用 Nano Banana 2(图像)或 Fast 视频变体(Veo 3.1 Fast、Seedance 2.0 Fast)以速度为先。
- 追求成片品质? 制作环节用 Nano Banana Pro(图像)、Veo 3.1 或 Seedance 2.0(视频)。
- 需要很多参考图像? Nano Banana 2 最多支持 14 张参考图像;Seedance 2.0 最多接受 9 张。
- 需要混合模态输入(图像 + 视频 + 音频)? Seedance 2.0 在同一次运行中同时接受这三种模态。
- 视频里需要对白? Veo 3.1 / Fast 会根据你提示词中加引号的台词生成语音。
- 想要 4 到 15 秒之间的自定义时长? Seedance 2.0 接受该范围内任意整数秒;Veo 固定为 4 / 6 / 8 秒。