Veo 3.1

Google 最高品质的视频生成，原生支持音频与口型同步的对白。

能力

特性	支持情况
文生视频	支持
图生视频	支持（首帧）
帧插值	支持（首帧 + 末帧）
视频延展	支持（最多 20 次延展，累计 148 秒）
参考图像	最多 3 张
最高分辨率	4K
画面比例	16:9、9:16
时长	4 秒、6 秒、8 秒
帧率	24 fps
反向提示词	支持
原生音频	支持（对白、音效、环境音）

原生音频生成

Veo 3.1 在生成视频的同时 原生生成音频，无需额外的音频模型。

对白

在提示词里加引号写出台词，模型会生成同步的口型和声音：

一位新闻主播坐在办公桌后说"突发新闻：科学家发现了一种深海鱼新物种。"
演播室是蓝色灯光。

音效

明确描述声音，模型就会生成：

一辆车在雨夜的城市街道上疾驰，轮胎在湿沥青上发出尖叫声，
雨刷有节奏地哒哒作响。

环境音

描述环境，模型会生成相匹配的音景：

黎明时分的宁静森林空地，鸟儿鸣叫，溪流缓缓流过石头，
微风轻拂叶片沙沙作响。

视频延展中的音频

延展视频时，只有出现在原始片段 最后 1 秒 内的声音/对白才会延续。请据此规划提示词。

分辨率与时长约束

分辨率	可选时长	备注
720p	4 秒、6 秒、8 秒	默认值，所有时长可选
1080p	仅 8 秒	必须 8 秒
4K	仅 8 秒	必须 8 秒

UI 会根据你选择的时长自动禁用不兼容的分辨率选项。

视频延展

可将已生成的视频每次延展最多 7 秒，最多延展 20 次（累计 148 秒）：

仅适用于 Veo 生成的视频
延展后的视频保持 720p 分辨率
画面比例必须为 16:9 或 9:16
延展视频的存储窗口为 2 天（每次延展时重置）

参考图像

最多可加入 3 张参考图像以引导视频内容：

参考图像中的物体和角色会被纳入视频
加入参考会强制 8 秒时长
把上游图像节点连接到视频节点的参考输入

视频提示词中的 @ 提及

你可以在视频提示词中使用 @[Image 1] 提及以提高可读性，但 Veo 是把参考图像作为结构化输入而非行内内容处理的。提及会被转换为提示词文本中的显示名（例如 @[Image 1] 变为 Image 1）。如需对每张图像下达精确指令，请在提示词文本中描述各参考的角色。

提示词技巧

像写剧本一样写。 用自然语言描述动作、运镜、灯光与氛围。
用加引号的对白表达台词。 "你好！"她挥了挥手 会生成匹配的声音与口型。
明确描述声音。 不要假设模型会自动加声音——直接写出来。
保持提示词聚焦。 一次生成一个清晰场景，比复杂的多场景描述效果更好。
使用反向提示词 排除不想要的元素："不要文字叠加，不要水印"。

内容政策

视频会被打上 SynthID 水印（不可见、可验证的 AI 内容标记）
欧盟/英国/瑞士地区： 人物生成仅限成人（禁止生成未成年人）
安全过滤可能会拦截违反内容准则的提示词——被拦截时不会扣费

局限

仅支持 16:9 与 9:16 画面比例（不支持 1:1 或其他比例）
1080p/4K 锁定为 8 秒时长
视频延展仅适用于 Veo 生成的内容（无法延展上传的视频）
音频质量取决于提示词的具体程度
生成时间约 2 分钟（如需更快迭代请用 Veo 3.1 Fast）

另请参阅

Veo 3.1 Fast —— 用于迭代的更快变体

能力​

原生音频生成​

对白​

音效​

环境音​

分辨率与时长约束​

视频延展​

参考图像​

提示词技巧​

内容政策​

局限​

另请参阅​

能力