视频生成

用文字、图片或参考素材生成 AI 视频 — 支持图生视频、视频编辑，以及 PixVerse 口型同步。

用 listenhub video CLI 从文字提示词或参考素材生成 AI 视频。可以让静态图片动起来、编辑已有片段，或用音频/文本转语音驱动人物口型。三个模型家族覆盖不同场景：HappyHorse、SeeDance、PixVerse。

触发方式

输入 /video-gen 命令，或使用以下任意短语触发：

短语	语言
`video generation` / `text to video` / `create video`	英文
`video edit` / `lipsync` / `pixverse`	英文
`生成视频` / `做视频` / `视频生成`	中文
`视频编辑` / `口型` / `对口型`	中文

使用前请先安装 ListenHub Skills — 参见快速开始。

如果你需要的是带旁白和 AI 画面的解说视频，请改用 /explainer。

快速示例

生成视频：赛博朋克城市夜景，16:9，5 秒

AI 会逐个问题引导你确认模式和参数，展示费用预估，并在生成前请你确认。生成需要几分钟 — 任务在后台运行，完成后 AI 会通知你，并附上 URL、时长、分辨率和消耗的积分。

视频生成始终带 --no-wait 运行，CLI 会立即返回任务 id，AI 在后台轮询（10 秒间隔）。如果你手上只有任务 id，可用 listenhub video get <taskId> --json 查进度。

模型

按场景选模型。HappyHorse 是默认值，也是唯一能编辑已有视频的家族；SeeDance 额外支持尾帧和参考音频；PixVerse 是唯一支持口型同步的家族，还提供一组原子能力（模仿、风格化、融合、过渡、营销 agent）。

能力	HappyHorse（默认）	SeeDance	PixVerse
文生视频	支持	支持	支持（`text_to_video`）
图生视频（首帧）	支持	支持（含尾帧）	支持（`image_to_video`）
参考图	支持（1–9，`[Image N]` 语法）	支持	支持（`fusion`，`@refName`）
视频编辑	支持	不支持	不支持
口型同步	不支持	不支持	支持（`lip_sync`，音频或 TTS）
动作迁移 / 模仿	不支持	不支持	支持（`mimic`，锁定 720p）
风格化 restyle	不支持	不支持	支持（`restyle`）
过渡（首帧 → 尾帧）	不支持	支持（frame 模式）	支持（`transition` / `multi_transition`）
参考视频	不支持（请用视频编辑）	支持	支持（mimic / lip_sync 源）
参考音频	不支持	支持	支持（lip_sync）
最高分辨率	1080p	1080p	1080p
分辨率选项	720p、1080p	480p、720p、1080p	360p、540p、720p、1080p
时长范围	3–15 秒	4–15 秒	1–60 秒（agent：20/30/60）
画面比例	16:9、9:16、1:1、4:3、3:4、4:5、5:4	16:9、9:16、1:1、4:3、3:4、21:9	9:16、16:9、1:1、4:3、3:4

口型同步、模仿、风格化、融合、过渡和营销 agent 都是 PixVerse 专属。HappyHorse 和 SeeDance 不支持这些能力。

SeeDance 模型变体

选择 SeeDance 时，在两个变体中二选一：

模型	说明
`doubao-seedance-2-pro`	画质更高；1080p 必需；支持尾帧和参考音频
`doubao-seedance-2-fast`	速度更快；选 1080p 时自动升级为 `pro`

PixVerse 仅 OpenAPI 模式可用 — 它位于 listenhub openapi video pixverse 下，所有素材都用公网 URL（不支持本地文件上传）。如果你想用口型同步、模仿、风格化、融合、过渡或营销 agent，但只配置了内部登录，请先用 listenhub openapi config set-key 配置 API Key。

模式

AI 会根据你提供的参考素材路由到对应模式。HappyHorse 和 SeeDance 共用 listenhub video create 命令；PixVerse 使用 listenhub openapi video pixverse generate，并需显式指定 --capability。

仅用文字提示词生成视频，无需参考素材。三个模型家族都支持。

listenhub video create \
  --prompt "赛博朋克城市夜景，霓虹倒映在湿漉漉的街道上" \
  --model "happyhorse" \
  --resolution "1080p" \
  --ratio "16:9" \
  --duration 5 \
  --no-wait --json

把静态图片作为首帧让画面动起来。SeeDance 还可接收尾帧图片，在两张静图之间插值出过渡动画。

图片要求：jpg、jpeg、png 或 webp；本地文件最大 20 MB；宽高均 ≥ 300px；宽高比在 1:2.5 到 2.5:1 之间。

listenhub video create \
  --prompt "让画面以流畅的运动活起来" \
  --model "happyhorse" \
  --resolution "1080p" \
  --duration 5 \
  --first-frame "/path/to/scene.png" \
  --no-wait --json

使用 SeeDance frame 模式时，加上 --last-frame 并使用 doubao-seedance-2-* 模型。

HappyHorse 图生视频没有 --ratio — 输出比例由输入图片决定。SeeDance 仍接受 --ratio。

提供 1–9 张参考图引导风格或角色。使用 HappyHorse 时，可在提示词中用 [Image 1]、[Image 2] 等引用具体图片。

图片要求：jpg、jpeg、png 或 webp；每张最大 20 MB；HappyHorse 建议短边 ≥ 400px。

listenhub video create \
  --prompt "[Image 1] 中的角色走在 [Image 2] 的街道上" \
  --model "happyhorse" \
  --resolution "1080p" \
  --ratio "16:9" \
  --duration 5 \
  --reference-image "/path/to/character.png" \
  --reference-image "/path/to/scene.png" \
  --no-wait --json

SeeDance 参考模式额外接受最多 3 个参考视频（mp4/mov，≤ 50 MB）和最多 3 个参考音频（mp3/wav，≤ 20 MB，需与图片或视频搭配）。

仅 PixVerse。 用音频文件或文本转语音驱动人物口型。源视频必须已存在于 PixVerse — 用 --source-video-id 引用，或用 --source-task-id 复用此前成功的任务。

用音频文件驱动（一个公网音频 URL，5–60 秒）：

listenhub openapi video pixverse generate \
  --capability lip_sync \
  --source-video-id "abc123" \
  --audio "https://example.com/voice.mp3" \
  --quality 720p \
  --no-wait --json

用文本转语音驱动（嵌套 tts，不带 --audio）：

listenhub openapi video pixverse generate \
  --capability lip_sync \
  --source-task-id "task_xyz" \
  --pixverse-json '{"tts":{"speakerId":"speaker_01","content":"大家好，欢迎来到本期节目"}}' \
  --quality 720p \
  --no-wait --json

音频文件和 TTS 二选一，不能同时给 — 同时提供会被拒绝。TTS 必须走嵌套的 --pixverse-json '{"tts":{...}}'；不要用 --lip-sync-tts / --lip-sync-speaker-id / --lip-sync-content，契约不认这几个 flag。

视频编辑（HappyHorse）

编辑已有片段 — 改风格、换背景、重塑运动。仅 HappyHorse 支持；如果你在 SeeDance 上要求编辑，AI 会自动切到 HappyHorse。

视频要求：mp4/mov（推荐 H.264）；输入 3–60 秒（输出上限 15 秒）；≤ 100 MB；短边 ≥ 360px，长边 ≤ 4096px。可选传入 0–5 张参考图。

listenhub video create \
  --prompt "将背景替换为深邃的星空，保持人物动作不变" \
  --model "happyhorse" \
  --resolution "1080p" \
  --reference-video "/path/to/input.mp4" \
  --audio-setting "origin" \
  --no-wait --json

--audio-setting 控制音频：auto 让模型决定，origin 保留原声。视频编辑没有 --ratio 和 --duration — 输出跟随输入视频。

其他 PixVerse 能力

PixVerse 通过 --capability 暴露更多原子能力，全部仅 OpenAPI 模式可用、输入为 URL：

能力	输入	约束
`mimic`（动作迁移）	1 图 + 1 视频	质量锁定 720p；运动源视频 5–30 秒
`restyle`	`--source-video-id`（或 `--source-task-id`）+ `--restyle-id`	—
`fusion`	嵌套 `imageReferences`（1–8），提示词用 `@refName`	顶层 `--image` 必须为空
`transition` / `multi_transition`	嵌套 `multiTransition` 关键帧（2–7）	默认质量 360p
`agent`（ad_master / promo_mix）	提示词 + 图片	质量仅 720p/1080p；时长仅 20/30/60；`promo_mix` 需 ≥ 4 张图

参数

AI 会逐个询问这些参数，并套用合理的会话默认值。HappyHorse 和 SeeDance 用 --ratio / --duration 设比例和时长；PixVerse 用 --quality 和 --aspect-ratio 替代 --resolution / --ratio。

参数	Flag	说明
提示词	`--prompt`	自由文本。HappyHorse ≤ 2500（中文）/ ≤ 5000（非中文）；SeeDance ≤ 500；PixVerse ≤ 2048
模型	`--model`	`happyhorse`（默认）、`doubao-seedance-2-pro`、`doubao-seedance-2-fast`、`pixverse`
分辨率	`--resolution`	HappyHorse：720p/1080p；SeeDance：480p/720p/1080p（480p 仅 SeeDance）
画面比例	`--ratio`	图生视频和视频编辑不使用（比例跟随输入）
时长	`--duration`	单位秒。HappyHorse 3–15，SeeDance 4–15
首帧	`--first-frame`	图生视频源图片
尾帧	`--last-frame`	仅 SeeDance frame 模式
参考图	`--reference-image`	可重复；1–9（HappyHorse），或视频编辑参考图（0–5）
参考视频	`--reference-video`	视频编辑输入（HappyHorse）或 SeeDance 参考
音频设置	`--audio-setting`	仅视频编辑：`auto` 或 `origin`
Seed	`--seed`	可选；用于复现结果

PixVerse 专属 flag：--capability、--quality（360p/540p/720p/1080p）、--aspect-ratio（9:16/16:9/1:1/4:3/3:4）、--source-video-id / --source-task-id、--audio、--agent-type、--restyle-id，以及承载嵌套负载的 --pixverse-json（tts、imageReferences、multiTransition）。

部分选择会被自动纠正：HappyHorse 的 480p 回退到 720p；doubao-seedance-2-fast 的 1080p 升级为 doubao-seedance-2-pro。AI 调整时会告诉你。

费用预估

生成前 AI 会先跑一次预估。想自己查费用，把 create 的参数对应到 estimate 命令：

# HappyHorse / SeeDance
listenhub video estimate --model "happyhorse" --resolution "1080p" --ratio "16:9" --duration 5 --json

# PixVerse — 对应 capability + quality + duration
listenhub openapi video pixverse estimate --capability text_to_video --model pixverse --quality 720p --duration 5 --json

视频编辑需额外加 --has-video-input 和 --input-video-duration <秒>。

输出

状态流转为 pending → generating → uploading → success。成功后 AI 会报告视频 URL、时长、分辨率、比例、seed 和消耗的积分。

输出行为遵循配置中设定的 outputMode：

inline（默认）或 both — 视频 URL 和元数据直接展示在对话中。
download 或 both — 文件同时保存到当前工作目录，使用基于主题的文件名（如 cyberpunk-city.mp4）。重名会自动去重。

回顾过往任务：listenhub video get <taskId> --json 返回单个任务，listenhub video list --json 列出最近任务。全局 flag 同样适用：--json / -j、--no-wait、--timeout <s>。

API 参考

端点路径、请求参数和响应字段详见AI Video API 参考。

视频生成

On this page