Seedance 2.0

BytePlus 的电影级视频模型，原生支持音频与多模态参考。与 Veo 家族的三大区别：

连续时长范围。 4 到 15 秒之间任意整数秒（含两端）——按镜头选择长度，而不是固定的 4 / 6 / 8。
混合模态参考。 同一次运行中可同时传入图像和视频和音频；模型会把它们融合到单次生成里。
严格首末帧模式。 当你想要关键帧驱动的插值而非松散的参考引导时，只需切换一个开关即可改变调度模式。

能力

特性	支持情况
文生视频	支持
图生视频	支持（首帧，可选末帧）
帧插值	支持（严格首帧 + 末帧模式）
多模态参考	同一次运行中最多 9 张图像 + 3 段视频 + 3 段音频
最高分辨率	1080p (1920×1080)
画面比例	自适应、21:9、16:9、4:3、1:1、3:4、9:16
时长	4–15 秒连续（步长 1 秒）
帧率	24 fps
原生音频	支持（按运行单独开启）
水印	支持（可选开启；BytePlus "Generated by AI" 标记）

时长滑块

Seedance 2.0 是 NGMC 中唯一使用连续时长滑块而非离散下拉框的视频模型。拖动到 4 到 15 秒之间的任意整数即可。价格按秒通过 model_pricing 行计算；范围内每个整数都有自己的价目行，因此切换长度永远不会触发"价格未配置"错误。

参考输入

最多 15 个参考项，可按任意组合搭配：

类型	上限
图像	9
视频	3
音频	3
文本片段（提示词分段）	10

多模态（mref2v）模式（默认）

模型将所有参考融合到一次生成里。当你希望模型从输入中宽泛地借用风格 / 物体 / 音频线索时使用。

严格首末帧（i2v）模式

在检查器中开启 "严格首/末帧"。行为变化：

第一张图像参考会作为输出的首帧（关键帧，而不是风格提示）。
如果在末帧槽位再加一张图像，它将作为末帧 —— 模型会在两者之间插值。
在此模式下，其他参考类型（视频、音频、额外的图像）会被忽略（BytePlus API 契约规定）。

UI 会把这两个关键帧槽位渲染为"首帧"和"末帧"标签，角色一目了然。

原生音频

在检查器里打开音频开关即可启用。开启后，Seedance 2.0 会在视频之外生成匹配的音轨（音效、环境音、氛围）。关闭时，输出为静音视频。

音频生成会增加运行时间与消耗；迭代阶段建议保持关闭。

水印

可选开启。开启后，BytePlus 会在输出上加一个小小的"Generated by AI"标记。默认关闭；当向要求显式标注 AI 内容的平台交付时再开启。

分辨率与价格

分辨率	可选时长	备注
480p	4–15 秒所有整数	每秒成本最低
720p	4–15 秒所有整数	标准制作品质
1080p	4–15 秒所有整数	最高品质，最高成本

三档分辨率都支持完整的时长范围，没有绑定限制（与 Veo 3.1 不同——那里 1080p 被锁定为 8 秒）。

提示词技巧

明确描述运动。 Seedance 对运镜语言反馈良好："缓慢推轨"、"自左向右跟拍"、"手持轻微晃动"。
给参考起名字。 在提示词中用 @[Image 1] / @[Video 2] 提及来告诉模型每个参考扮演什么角色。
保持镜头聚焦。 一个场景、一个动作。多场景提示词的效果不如单个连续镜头。
开启音频时配合音频描述性提示词。 如果打开了音频开关，请描述你想要的声音（"雨打铁皮屋顶"、"餐厅里嘈杂的低语"）。音频关闭时默认静音。

局限

不支持视频延展（与 Veo 3.1 不同 —— 每次 Seedance 运行都是独立的）。
无反向提示词字段。
音频按运行单独开启，无法事后添加到已生成的静音视频上。
严格首末帧模式与多模态参考互斥 —— 后端会预先校验。
不支持批量 / 连排生成（generationCount > 1）；每次 Seedance 运行只产出一个结果。

另请参阅

Seedance 2.0 Fast —— 能力一致的更快变体
Veo 3.1 —— Google 的替代方案，支持 4K 输出 + 视频延展

能力​

时长滑块​

参考输入​

多模态（mref2v）模式（默认）​

严格首末帧（i2v）模式​

原生音频​

水印​

分辨率与价格​

提示词技巧​

局限​

另请参阅​

能力