Veo 3.1
Google 最高品质的视频生成,原生支持音频与口型同步的对白。
能力
| 特性 | 支持情况 |
|---|---|
| 文生视频 | 支持 |
| 图生视频 | 支持(首帧) |
| 帧插值 | 支持(首帧 + 末帧) |
| 视频延展 | 支持(最多 20 次延展,累计 148 秒) |
| 参考图像 | 最多 3 张 |
| 最高分辨率 | 4K |
| 画面比例 | 16:9、9:16 |
| 时长 | 4 秒、6 秒、8 秒 |
| 帧率 | 24 fps |
| 反向提示词 | 支持 |
| 原生音频 | 支持(对白、音效、环境音) |
原生音频生成
Veo 3.1 在生成视频的同时 原生生成音频,无需额外的音频模型。
对白
在提示词里加引号写出台词,模型会生成同步的口型和声音:
一位新闻主播坐在办公桌后说"突发新闻:科学家发现了一种深海鱼新物种。"
演播室是蓝色灯光。
音效
明确描述声音,模型就会生成:
一辆车在雨夜的城市街道上疾驰,轮胎在湿沥青上发出尖叫声,
雨刷有节奏地哒哒作响。
环境音
描述环境,模型会生成相匹配的音景:
黎明时分的宁静森林空地,鸟儿鸣叫,溪流缓缓流过石头,
微风轻拂叶片沙沙作响。
视频延展中的音频
延展视频时,只有出现在原始片段 最后 1 秒 内的声音/对白才会延续。请据此规划提示词。
分辨率与时长约束
| 分辨率 | 可选时长 | 备注 |
|---|---|---|
| 720p | 4 秒、6 秒、8 秒 | 默认值,所有时长可选 |
| 1080p | 仅 8 秒 | 必须 8 秒 |
| 4K | 仅 8 秒 | 必须 8 秒 |
UI 会根据你选择的时长自动禁用不兼容的分辨率选项。
视频延展
可将已生成的视频每次延展最多 7 秒,最多延展 20 次(累计 148 秒):
- 仅适用于 Veo 生成的视频
- 延展后的视频保持 720p 分辨率
- 画面比例必须为 16:9 或 9:16
- 延展视频的存储窗口为 2 天(每次延展时重置)
参考图像
最多可加入 3 张参考图像以引导视频内容:
- 参考图像中的物体和角色会被纳入视频
- 加入参考会强制 8 秒时长
- 把上游图像节点连接到视频节点的参考输入
视频提示词中的 @ 提及
你可以在视频提示词中使用 @[Image 1] 提及以提高可读性,但 Veo 是把参考图像作为结构化输入而非行内内容处理的。提及会被转换为提示词文本中的显示名(例如 @[Image 1] 变为 Image 1)。如需对每张图像下达精确指令,请在提示词文本中描述各参考的角色。
提示词技巧
- 像写剧本一样写。 用自然语言描述动作、运镜、灯光与氛围。
- 用加引号的对白表达台词。
"你好!"她挥了挥手会生成匹配的声音与口型。 - 明确描述声音。 不要假设模型会自动加声音——直接写出来。
- 保持提示词聚焦。 一次生成一个清晰场景,比复杂的多场景描述效果更好。
- 使用反向提示词 排除不想要的元素:"不要文字叠加,不要水印"。
内容政策
- 视频会被打上 SynthID 水印(不可见、可验证的 AI 内容标记)
- 欧盟/英国/瑞士地区: 人物生成仅限成人(禁止生成未成年人)
- 安全过滤可能会拦截违反内容准则的提示词——被拦截时不会扣费
局限
- 仅支持 16:9 与 9:16 画面比例(不支持 1:1 或其他比例)
- 1080p/4K 锁定为 8 秒时长
- 视频延展仅适用于 Veo 生成的内容(无法延展上传的视频)
- 音频质量取决于提示词的具体程度
- 生成时间约 2 分钟(如需更快迭代请用 Veo 3.1 Fast)
另请参阅
- Veo 3.1 Fast —— 用于迭代的更快变体