视频生成
用文字、图片或参考素材生成 AI 视频 — 支持图生视频、视频编辑,以及 PixVerse 口型同步。
用 listenhub video CLI 从文字提示词或参考素材生成 AI 视频。可以让静态图片动起来、编辑已有片段,或用音频/文本转语音驱动人物口型。三个模型家族覆盖不同场景:HappyHorse、SeeDance、PixVerse。
触发方式
输入 /video-gen 命令,或使用以下任意短语触发:
| 短语 | 语言 |
|---|---|
video generation / text to video / create video | 英文 |
video edit / lipsync / pixverse | 英文 |
生成视频 / 做视频 / 视频生成 | 中文 |
视频编辑 / 口型 / 对口型 | 中文 |
使用前请先安装 ListenHub Skills — 参见快速开始。
如果你需要的是带旁白和 AI 画面的解说视频,请改用 /explainer。
快速示例
生成视频:赛博朋克城市夜景,16:9,5 秒AI 会逐个问题引导你确认模式和参数,展示费用预估,并在生成前请你确认。生成需要几分钟 — 任务在后台运行,完成后 AI 会通知你,并附上 URL、时长、分辨率和消耗的积分。
视频生成始终带 --no-wait 运行,CLI 会立即返回任务 id,AI 在后台轮询(10 秒间隔)。如果你手上只有任务 id,可用 listenhub video get <taskId> --json 查进度。
模型
按场景选模型。HappyHorse 是默认值,也是唯一能编辑已有视频的家族;SeeDance 额外支持尾帧和参考音频;PixVerse 是唯一支持口型同步的家族,还提供一组原子能力(模仿、风格化、融合、过渡、营销 agent)。
| 能力 | HappyHorse(默认) | SeeDance | PixVerse |
|---|---|---|---|
| 文生视频 | 支持 | 支持 | 支持(text_to_video) |
| 图生视频(首帧) | 支持 | 支持(含尾帧) | 支持(image_to_video) |
| 参考图 | 支持(1–9,[Image N] 语法) | 支持 | 支持(fusion,@refName) |
| 视频编辑 | 支持 | 不支持 | 不支持 |
| 口型同步 | 不支持 | 不支持 | 支持(lip_sync,音频或 TTS) |
| 动作迁移 / 模仿 | 不支持 | 不支持 | 支持(mimic,锁定 720p) |
| 风格化 restyle | 不支持 | 不支持 | 支持(restyle) |
| 过渡(首帧 → 尾帧) | 不支持 | 支持(frame 模式) | 支持(transition / multi_transition) |
| 参考视频 | 不支持(请用视频编辑) | 支持 | 支持(mimic / lip_sync 源) |
| 参考音频 | 不支持 | 支持 | 支持(lip_sync) |
| 最高分辨率 | 1080p | 1080p | 1080p |
| 分辨率选项 | 720p、1080p | 480p、720p、1080p | 360p、540p、720p、1080p |
| 时长范围 | 3–15 秒 | 4–15 秒 | 1–60 秒(agent:20/30/60) |
| 画面比例 | 16:9、9:16、1:1、4:3、3:4、4:5、5:4 | 16:9、9:16、1:1、4:3、3:4、21:9 | 9:16、16:9、1:1、4:3、3:4 |
口型同步、模仿、风格化、融合、过渡和营销 agent 都是 PixVerse 专属。HappyHorse 和 SeeDance 不支持这些能力。
SeeDance 模型变体
选择 SeeDance 时,在两个变体中二选一:
| 模型 | 说明 |
|---|---|
doubao-seedance-2-pro | 画质更高;1080p 必需;支持尾帧和参考音频 |
doubao-seedance-2-fast | 速度更快;选 1080p 时自动升级为 pro |
PixVerse 仅 OpenAPI 模式可用 — 它位于 listenhub openapi video pixverse 下,所有素材都用公网 URL(不支持本地文件上传)。如果你想用口型同步、模仿、风格化、融合、过渡或营销 agent,但只配置了内部登录,请先用 listenhub openapi config set-key 配置 API Key。
模式
AI 会根据你提供的参考素材路由到对应模式。HappyHorse 和 SeeDance 共用 listenhub video create 命令;PixVerse 使用 listenhub openapi video pixverse generate,并需显式指定 --capability。
仅用文字提示词生成视频,无需参考素材。三个模型家族都支持。
listenhub video create \
--prompt "赛博朋克城市夜景,霓虹倒映在湿漉漉的街道上" \
--model "happyhorse" \
--resolution "1080p" \
--ratio "16:9" \
--duration 5 \
--no-wait --json把静态图片作为首帧让画面动起来。SeeDance 还可接收尾帧图片,在两张静图之间插值出过渡动画。
图片要求:jpg、jpeg、png 或 webp;本地文件最大 20 MB;宽高均 ≥ 300px;宽高比在 1:2.5 到 2.5:1 之间。
listenhub video create \
--prompt "让画面以流畅的运动活起来" \
--model "happyhorse" \
--resolution "1080p" \
--duration 5 \
--first-frame "/path/to/scene.png" \
--no-wait --json使用 SeeDance frame 模式时,加上 --last-frame 并使用 doubao-seedance-2-* 模型。
HappyHorse 图生视频没有 --ratio — 输出比例由输入图片决定。SeeDance 仍接受 --ratio。
提供 1–9 张参考图引导风格或角色。使用 HappyHorse 时,可在提示词中用 [Image 1]、[Image 2] 等引用具体图片。
图片要求:jpg、jpeg、png 或 webp;每张最大 20 MB;HappyHorse 建议短边 ≥ 400px。
listenhub video create \
--prompt "[Image 1] 中的角色走在 [Image 2] 的街道上" \
--model "happyhorse" \
--resolution "1080p" \
--ratio "16:9" \
--duration 5 \
--reference-image "/path/to/character.png" \
--reference-image "/path/to/scene.png" \
--no-wait --jsonSeeDance 参考模式额外接受最多 3 个参考视频(mp4/mov,≤ 50 MB)和最多 3 个参考音频(mp3/wav,≤ 20 MB,需与图片或视频搭配)。
仅 PixVerse。 用音频文件或文本转语音驱动人物口型。源视频必须已存在于 PixVerse — 用 --source-video-id 引用,或用 --source-task-id 复用此前成功的任务。
用音频文件驱动(一个公网音频 URL,5–60 秒):
listenhub openapi video pixverse generate \
--capability lip_sync \
--source-video-id "abc123" \
--audio "https://example.com/voice.mp3" \
--quality 720p \
--no-wait --json用文本转语音驱动(嵌套 tts,不带 --audio):
listenhub openapi video pixverse generate \
--capability lip_sync \
--source-task-id "task_xyz" \
--pixverse-json '{"tts":{"speakerId":"speaker_01","content":"大家好,欢迎来到本期节目"}}' \
--quality 720p \
--no-wait --json音频文件和 TTS 二选一,不能同时给 — 同时提供会被拒绝。TTS 必须走嵌套的 --pixverse-json '{"tts":{...}}';不要用 --lip-sync-tts / --lip-sync-speaker-id / --lip-sync-content,契约不认这几个 flag。
视频编辑(HappyHorse)
编辑已有片段 — 改风格、换背景、重塑运动。仅 HappyHorse 支持;如果你在 SeeDance 上要求编辑,AI 会自动切到 HappyHorse。
视频要求:mp4/mov(推荐 H.264);输入 3–60 秒(输出上限 15 秒);≤ 100 MB;短边 ≥ 360px,长边 ≤ 4096px。可选传入 0–5 张参考图。
listenhub video create \
--prompt "将背景替换为深邃的星空,保持人物动作不变" \
--model "happyhorse" \
--resolution "1080p" \
--reference-video "/path/to/input.mp4" \
--audio-setting "origin" \
--no-wait --json--audio-setting 控制音频:auto 让模型决定,origin 保留原声。视频编辑没有 --ratio 和 --duration — 输出跟随输入视频。
其他 PixVerse 能力
PixVerse 通过 --capability 暴露更多原子能力,全部仅 OpenAPI 模式可用、输入为 URL:
| 能力 | 输入 | 约束 |
|---|---|---|
mimic(动作迁移) | 1 图 + 1 视频 | 质量锁定 720p;运动源视频 5–30 秒 |
restyle | --source-video-id(或 --source-task-id)+ --restyle-id | — |
fusion | 嵌套 imageReferences(1–8),提示词用 @refName | 顶层 --image 必须为空 |
transition / multi_transition | 嵌套 multiTransition 关键帧(2–7) | 默认质量 360p |
agent(ad_master / promo_mix) | 提示词 + 图片 | 质量仅 720p/1080p;时长仅 20/30/60;promo_mix 需 ≥ 4 张图 |
参数
AI 会逐个询问这些参数,并套用合理的会话默认值。HappyHorse 和 SeeDance 用 --ratio / --duration 设比例和时长;PixVerse 用 --quality 和 --aspect-ratio 替代 --resolution / --ratio。
| 参数 | Flag | 说明 |
|---|---|---|
| 提示词 | --prompt | 自由文本。HappyHorse ≤ 2500(中文)/ ≤ 5000(非中文);SeeDance ≤ 500;PixVerse ≤ 2048 |
| 模型 | --model | happyhorse(默认)、doubao-seedance-2-pro、doubao-seedance-2-fast、pixverse |
| 分辨率 | --resolution | HappyHorse:720p/1080p;SeeDance:480p/720p/1080p(480p 仅 SeeDance) |
| 画面比例 | --ratio | 图生视频和视频编辑不使用(比例跟随输入) |
| 时长 | --duration | 单位秒。HappyHorse 3–15,SeeDance 4–15 |
| 首帧 | --first-frame | 图生视频源图片 |
| 尾帧 | --last-frame | 仅 SeeDance frame 模式 |
| 参考图 | --reference-image | 可重复;1–9(HappyHorse),或视频编辑参考图(0–5) |
| 参考视频 | --reference-video | 视频编辑输入(HappyHorse)或 SeeDance 参考 |
| 音频设置 | --audio-setting | 仅视频编辑:auto 或 origin |
| Seed | --seed | 可选;用于复现结果 |
PixVerse 专属 flag:--capability、--quality(360p/540p/720p/1080p)、--aspect-ratio(9:16/16:9/1:1/4:3/3:4)、--source-video-id / --source-task-id、--audio、--agent-type、--restyle-id,以及承载嵌套负载的 --pixverse-json(tts、imageReferences、multiTransition)。
部分选择会被自动纠正:HappyHorse 的 480p 回退到 720p;doubao-seedance-2-fast 的 1080p 升级为 doubao-seedance-2-pro。AI 调整时会告诉你。
费用预估
生成前 AI 会先跑一次预估。想自己查费用,把 create 的参数对应到 estimate 命令:
# HappyHorse / SeeDance
listenhub video estimate --model "happyhorse" --resolution "1080p" --ratio "16:9" --duration 5 --json
# PixVerse — 对应 capability + quality + duration
listenhub openapi video pixverse estimate --capability text_to_video --model pixverse --quality 720p --duration 5 --json视频编辑需额外加 --has-video-input 和 --input-video-duration <秒>。
输出
状态流转为 pending → generating → uploading → success。成功后 AI 会报告视频 URL、时长、分辨率、比例、seed 和消耗的积分。
输出行为遵循配置中设定的 outputMode:
inline(默认)或both— 视频 URL 和元数据直接展示在对话中。download或both— 文件同时保存到当前工作目录,使用基于主题的文件名(如cyberpunk-city.mp4)。重名会自动去重。
回顾过往任务:listenhub video get <taskId> --json 返回单个任务,listenhub video list --json 列出最近任务。全局 flag 同样适用:--json / -j、--no-wait、--timeout <s>。
API 参考
端点路径、请求参数和响应字段详见AI Video API 参考。