AI 模型指南

NGMC 集成了多种 AI 模型，用于图像、视频和音频生成。每个模型都有独特的能力、强项和局限。本指南帮你选对模型、用好模型。

图像模型

通过文本提示词和参考图像生成、编辑静态图像。

模型	速度	最高分辨率	参考图像	核心优势
GPT Image 2	~45 秒	4K (3840x3840)	支持	提示词忠实度高、支持编辑、三档画质
Nano Banana Pro	~45 秒	4K (6336x5504)	最多 6 张	专业级品质、多轮编辑
Nano Banana 2	~15 秒	4K (4096x4096)	最多 14 张	最快、支持最多参考图像、0.5K 草图模式

从文本、图像生成视频，或延展已有片段。

模型	速度	最高分辨率	时长	音频	核心优势
Veo 3.1	~2 分钟	4K	4 / 6 / 8 秒	原生音频 + 对白	顶级品质、4K、视频延展
Veo 3.1 Fast	~45 秒	720p	4 / 6 / 8 秒	原生音频 + 对白	快速迭代、视频延展
Seedance 2.0	~2 分钟	1080p	4–15 秒（连续可选）	可选原生音频	电影级品质、多模态参考、图像 + 视频 + 音频混合输入
Seedance 2.0 Fast	~45 秒	1080p	4–15 秒（连续可选）	可选原生音频	Seedance 的快速变体，能力一致

生成音效、音乐和环境音。

模型	速度	时长	核心优势
Lyria 3（Clip）	~30 秒	最长 30 秒	音效与短乐句的快速迭代
Lyria 3（Pro）	~1 分钟	最长 2 分钟	更高品质的音乐与氛围音景

你可以在提示词里使用 @ 提及 来精准告诉模型如何使用每张参考图像。

在提示词输入框里输入 @ 即可打开引用选择器。选中一张图像后，类似 @[Image 1] 的提及会被插入到该位置。生成时，模型会在你文字的那个精确位置 以行内方式 看到这张图像，从而获得准确的上下文。

示例：

基于 @[Image 2] 再添加一只布偶猫，并把背景替换为 @[Image 1] 中的景物。

模型会在"基于"之后看到 Image 2，在"背景替换为"之后看到 Image 1，从而清楚哪张图像用于何种用途。

如果不使用 @，所有参考图像都会被附加在你的提示词文本之后。模型仍然能看到它们，但需要自己推断如何使用每一张。对于简单情况（单张参考、风格迁移）这就够用。当你需要模型区分多张图像时，请使用 @。

模型类型	@ 提及行为
图像模型（Nano Banana Pro/2）	完全交错——图像在被提及的位置以行内方式插入
视频模型（Veo 3.1/Fast、Seedance 2.0/Fast）	提及会被解析为提示词文本中的显示名称；图像则作为结构化参考输入传递
音频模型（Lyria 3 Clip/Pro）	不适用（仅支持音频参考）

选择模型

正在打磨创意？ 用 Nano Banana 2（图像）或 Fast 视频变体（Veo 3.1 Fast、Seedance 2.0 Fast）以速度为先。
追求成片品质？ 制作环节用 Nano Banana Pro（图像）、Veo 3.1 或 Seedance 2.0（视频）。
需要很多参考图像？ Nano Banana 2 最多支持 14 张参考图像；Seedance 2.0 最多接受 9 张。
需要混合模态输入（图像 + 视频 + 音频）？ Seedance 2.0 在同一次运行中同时接受这三种模态。
视频里需要对白？ Veo 3.1 / Fast 会根据你提示词中加引号的台词生成语音。
想要 4 到 15 秒之间的自定义时长？ Seedance 2.0 接受该范围内任意整数秒；Veo 固定为 4 / 6 / 8 秒。