Seedance 2.0
BytePlus 的电影级视频模型,原生支持音频与多模态参考。与 Veo 家族的三大区别:
- 连续时长范围。 4 到 15 秒之间任意整数秒(含两端)——按镜头选择长度,而不是固定的 4 / 6 / 8。
- 混合模态参考。 同一次运行中可同时传入图像 和 视频 和 音频;模型会把它们融合到单次生成里。
- 严格首末帧模式。 当你想要关键帧驱动的插值而非松散的参考引导时,只需切换一个开关即可改变调度模式。
能力
| 特性 | 支持情况 |
|---|---|
| 文生视频 | 支持 |
| 图生视频 | 支持(首帧,可选末帧) |
| 帧插值 | 支持(严格首帧 + 末帧模式) |
| 多模态参考 | 同一次运行中最多 9 张图像 + 3 段视频 + 3 段音频 |
| 最高分辨率 | 1080p (1920×1080) |
| 画面比例 | 自适应、21:9、16:9、4:3、1:1、3:4、9:16 |
| 时长 | 4–15 秒连续(步长 1 秒) |
| 帧率 | 24 fps |
| 原生音频 | 支持(按运行单独开启) |
| 水印 | 支持(可选开启;BytePlus "Generated by AI" 标记) |
时长滑块
Seedance 2.0 是 NGMC 中唯一使用连续时长滑块而非离散下拉框的视频模型。拖动到 4 到 15 秒之间的任意整数即可。价格按秒通过 model_pricing 行计算;范围内每个整数都有自己的价目行,因此切换长度永远不会触发"价格未配置"错误。
参考输入
最多 15 个参考项,可按任意组合搭配:
| 类型 | 上限 |
|---|---|
| 图像 | 9 |
| 视频 | 3 |
| 音频 | 3 |
| 文本片段(提示词分段) | 10 |
多模态(mref2v)模式(默认)
模型将所有参考融合到一次生成里。当你希望模型从输入中宽泛地借用风格 / 物体 / 音频线索时使用。
严格首末帧(i2v)模式
在检查器中开启 "严格首/末帧"。行为变化:
- 第一张图像参考会作为输出的 首帧(关键帧,而不是风格提示)。
- 如果在末帧槽位再加一张图像,它将作为 末帧 —— 模型会在两者之间插值。
- 在此模式下,其他参考类型(视频、音频、额外的图像)会被 忽略(BytePlus API 契约规定)。
UI 会把这两个关键帧槽位渲染为"首帧"和"末帧"标签,角色一目了然。
原生音频
在检查器里打开 音频 开关即可启用。开启后,Seedance 2.0 会在视频之外生成匹配的音轨(音效、环境音、氛围)。关闭时,输出为静音视频。
音频生成会增加运行时间与消耗;迭代阶段建议保持关闭。
水印
可选开启。开启后,BytePlus 会在输出上加一个小小的"Generated by AI"标记。默认关闭;当向要求显式标注 AI 内容的平台交付时再开启。
分辨率与价格
| 分辨率 | 可选时长 | 备注 |
|---|---|---|
| 480p | 4–15 秒所有整数 | 每秒成本最低 |
| 720p | 4–15 秒所有整数 | 标准制作品质 |
| 1080p | 4–15 秒所有整数 | 最高品质,最高成本 |
三档分辨率都支持完整的时长范围,没有绑定限制(与 Veo 3.1 不同——那里 1080p 被锁定为 8 秒)。
提示词技巧
- 明确描述运动。 Seedance 对运镜语言反馈良好:"缓慢推轨"、"自左向右跟拍"、"手持轻微晃动"。
- 给参考起名字。 在提示词中用
@[Image 1]/@[Video 2]提及来告诉模型每个参考扮演什么角色。 - 保持镜头聚焦。 一个场景、一个动作。多场景提示词的效果不如单个连续镜头。
- 开启音频时配合音频描述性提示词。 如果打开了音频开关,请描述你想要的声音("雨打铁皮屋顶"、"餐厅里嘈杂的低语")。音频关闭时默认静音。
局限
- 不支持视频延展(与 Veo 3.1 不同 —— 每次 Seedance 运行都是独立的)。
- 无反向提示词字段。
- 音频按运行单独开启,无法事后添加到已生成的静音视频上。
- 严格首末帧模式与多模态参考互斥 —— 后端会预先校验。
- 不支持批量 / 连排生成(
generationCount > 1);每次 Seedance 运行只产出一个结果。
另请参阅
- Seedance 2.0 Fast —— 能力一致的更快变体
- Veo 3.1 —— Google 的替代方案,支持 4K 输出 + 视频延展