跳到主要内容

Veo 3.1

Google 最高品质的视频生成,原生支持音频与口型同步的对白。

能力

特性支持情况
文生视频支持
图生视频支持(首帧)
帧插值支持(首帧 + 末帧)
视频延展支持(最多 20 次延展,累计 148 秒)
参考图像最多 3 张
最高分辨率4K
画面比例16:9、9:16
时长4 秒、6 秒、8 秒
帧率24 fps
反向提示词支持
原生音频支持(对白、音效、环境音)

原生音频生成

Veo 3.1 在生成视频的同时 原生生成音频,无需额外的音频模型。

对白

在提示词里加引号写出台词,模型会生成同步的口型和声音:

一位新闻主播坐在办公桌后说"突发新闻:科学家发现了一种深海鱼新物种。"
演播室是蓝色灯光。

音效

明确描述声音,模型就会生成:

一辆车在雨夜的城市街道上疾驰,轮胎在湿沥青上发出尖叫声,
雨刷有节奏地哒哒作响。

环境音

描述环境,模型会生成相匹配的音景:

黎明时分的宁静森林空地,鸟儿鸣叫,溪流缓缓流过石头,
微风轻拂叶片沙沙作响。
视频延展中的音频

延展视频时,只有出现在原始片段 最后 1 秒 内的声音/对白才会延续。请据此规划提示词。

分辨率与时长约束

分辨率可选时长备注
720p4 秒、6 秒、8 秒默认值,所有时长可选
1080p仅 8 秒必须 8 秒
4K仅 8 秒必须 8 秒

UI 会根据你选择的时长自动禁用不兼容的分辨率选项。

视频延展

可将已生成的视频每次延展最多 7 秒,最多延展 20 次(累计 148 秒):

  • 仅适用于 Veo 生成的视频
  • 延展后的视频保持 720p 分辨率
  • 画面比例必须为 16:9 或 9:16
  • 延展视频的存储窗口为 2 天(每次延展时重置)

参考图像

最多可加入 3 张参考图像以引导视频内容:

  • 参考图像中的物体和角色会被纳入视频
  • 加入参考会强制 8 秒时长
  • 把上游图像节点连接到视频节点的参考输入
视频提示词中的 @ 提及

你可以在视频提示词中使用 @[Image 1] 提及以提高可读性,但 Veo 是把参考图像作为结构化输入而非行内内容处理的。提及会被转换为提示词文本中的显示名(例如 @[Image 1] 变为 Image 1)。如需对每张图像下达精确指令,请在提示词文本中描述各参考的角色。

提示词技巧

  • 像写剧本一样写。 用自然语言描述动作、运镜、灯光与氛围。
  • 用加引号的对白表达台词。 "你好!"她挥了挥手 会生成匹配的声音与口型。
  • 明确描述声音。 不要假设模型会自动加声音——直接写出来。
  • 保持提示词聚焦。 一次生成一个清晰场景,比复杂的多场景描述效果更好。
  • 使用反向提示词 排除不想要的元素:"不要文字叠加,不要水印"。

内容政策

  • 视频会被打上 SynthID 水印(不可见、可验证的 AI 内容标记)
  • 欧盟/英国/瑞士地区: 人物生成仅限成人(禁止生成未成年人)
  • 安全过滤可能会拦截违反内容准则的提示词——被拦截时不会扣费

局限

  • 仅支持 16:9 与 9:16 画面比例(不支持 1:1 或其他比例)
  • 1080p/4K 锁定为 8 秒时长
  • 视频延展仅适用于 Veo 生成的内容(无法延展上传的视频)
  • 音频质量取决于提示词的具体程度
  • 生成时间约 2 分钟(如需更快迭代请用 Veo 3.1 Fast)

另请参阅