跳到主要内容

AI 模型指南

NGMC 集成了多种 AI 模型,用于图像、视频和音频生成。每个模型都有独特的能力、强项和局限。本指南帮你选对模型、用好模型。

图像模型

通过文本提示词和参考图像生成、编辑静态图像。

模型速度最高分辨率参考图像核心优势
GPT Image 2~45 秒4K (3840x3840)支持提示词忠实度高、支持编辑、三档画质
Nano Banana Pro~45 秒4K (6336x5504)最多 6 张专业级品质、多轮编辑
Nano Banana 2~15 秒4K (4096x4096)最多 14 张最快、支持最多参考图像、0.5K 草图模式

视频模型

从文本、图像生成视频,或延展已有片段。

模型速度最高分辨率时长音频核心优势
Veo 3.1~2 分钟4K4 / 6 / 8 秒原生音频 + 对白顶级品质、4K、视频延展
Veo 3.1 Fast~45 秒720p4 / 6 / 8 秒原生音频 + 对白快速迭代、视频延展
Seedance 2.0~2 分钟1080p4–15 秒(连续可选)可选原生音频电影级品质、多模态参考、图像 + 视频 + 音频混合输入
Seedance 2.0 Fast~45 秒1080p4–15 秒(连续可选)可选原生音频Seedance 的快速变体,能力一致

音频模型

生成音效、音乐和环境音。

模型速度时长核心优势
Lyria 3(Clip)~30 秒最长 30 秒音效与短乐句的快速迭代
Lyria 3(Pro)~1 分钟最长 2 分钟更高品质的音乐与氛围音景

在提示词里引用图像

你可以在提示词里使用 @ 提及 来精准告诉模型如何使用每张参考图像。

工作方式

在提示词输入框里输入 @ 即可打开引用选择器。选中一张图像后,类似 @[Image 1] 的提及会被插入到该位置。生成时,模型会在你文字的那个精确位置 以行内方式 看到这张图像,从而获得准确的上下文。

示例:

基于 @[Image 2] 再添加一只布偶猫,并把背景替换为 @[Image 1] 中的景物。

模型会在"基于"之后看到 Image 2,在"背景替换为"之后看到 Image 1,从而清楚哪张图像用于何种用途。

不使用 @ 提及

如果不使用 @,所有参考图像都会被附加在你的提示词文本之后。模型仍然能看到它们,但需要自己推断如何使用每一张。对于简单情况(单张参考、风格迁移)这就够用。当你需要模型区分多张图像时,请使用 @

各模型行为

模型类型@ 提及行为
图像模型(Nano Banana Pro/2)完全交错——图像在被提及的位置以行内方式插入
视频模型(Veo 3.1/Fast、Seedance 2.0/Fast)提及会被解析为提示词文本中的显示名称;图像则作为结构化参考输入传递
音频模型(Lyria 3 Clip/Pro)不适用(仅支持音频参考)

选择模型
  • 正在打磨创意? 用 Nano Banana 2(图像)或 Fast 视频变体(Veo 3.1 Fast、Seedance 2.0 Fast)以速度为先。
  • 追求成片品质? 制作环节用 Nano Banana Pro(图像)、Veo 3.1 或 Seedance 2.0(视频)。
  • 需要很多参考图像? Nano Banana 2 最多支持 14 张参考图像;Seedance 2.0 最多接受 9 张。
  • 需要混合模态输入(图像 + 视频 + 音频)? Seedance 2.0 在同一次运行中同时接受这三种模态。
  • 视频里需要对白? Veo 3.1 / Fast 会根据你提示词中加引号的台词生成语音。
  • 想要 4 到 15 秒之间的自定义时长? Seedance 2.0 接受该范围内任意整数秒;Veo 固定为 4 / 6 / 8 秒。