ListenHubSkills

视频生成

用文字、图片或参考素材生成 AI 视频 — 支持图生视频、视频编辑,以及 PixVerse 口型同步。

listenhub video CLI 从文字提示词或参考素材生成 AI 视频。可以让静态图片动起来、编辑已有片段,或用音频/文本转语音驱动人物口型。三个模型家族覆盖不同场景:HappyHorse、SeeDance、PixVerse。

触发方式

输入 /video-gen 命令,或使用以下任意短语触发:

短语语言
video generation / text to video / create video英文
video edit / lipsync / pixverse英文
生成视频 / 做视频 / 视频生成中文
视频编辑 / 口型 / 对口型中文

使用前请先安装 ListenHub Skills — 参见快速开始

如果你需要的是带旁白和 AI 画面的解说视频,请改用 /explainer

快速示例

生成视频:赛博朋克城市夜景,16:9,5 秒

AI 会逐个问题引导你确认模式和参数,展示费用预估,并在生成前请你确认。生成需要几分钟 — 任务在后台运行,完成后 AI 会通知你,并附上 URL、时长、分辨率和消耗的积分。

视频生成始终带 --no-wait 运行,CLI 会立即返回任务 id,AI 在后台轮询(10 秒间隔)。如果你手上只有任务 id,可用 listenhub video get <taskId> --json 查进度。

模型

按场景选模型。HappyHorse 是默认值,也是唯一能编辑已有视频的家族;SeeDance 额外支持尾帧和参考音频;PixVerse 是唯一支持口型同步的家族,还提供一组原子能力(模仿、风格化、融合、过渡、营销 agent)。

能力HappyHorse(默认)SeeDancePixVerse
文生视频支持支持支持(text_to_video
图生视频(首帧)支持支持(含尾帧)支持(image_to_video
参考图支持(1–9,[Image N] 语法)支持支持(fusion@refName
视频编辑支持不支持不支持
口型同步不支持不支持支持(lip_sync,音频或 TTS)
动作迁移 / 模仿不支持不支持支持(mimic,锁定 720p)
风格化 restyle不支持不支持支持(restyle
过渡(首帧 → 尾帧)不支持支持(frame 模式)支持(transition / multi_transition
参考视频不支持(请用视频编辑)支持支持(mimic / lip_sync 源)
参考音频不支持支持支持(lip_sync)
最高分辨率1080p1080p1080p
分辨率选项720p、1080p480p、720p、1080p360p、540p、720p、1080p
时长范围3–15 秒4–15 秒1–60 秒(agent:20/30/60)
画面比例16:9、9:16、1:1、4:3、3:4、4:5、5:416:9、9:16、1:1、4:3、3:4、21:99:16、16:9、1:1、4:3、3:4

口型同步、模仿、风格化、融合、过渡和营销 agent 都是 PixVerse 专属。HappyHorse 和 SeeDance 不支持这些能力。

SeeDance 模型变体

选择 SeeDance 时,在两个变体中二选一:

模型说明
doubao-seedance-2-pro画质更高;1080p 必需;支持尾帧和参考音频
doubao-seedance-2-fast速度更快;选 1080p 时自动升级为 pro

PixVerse 仅 OpenAPI 模式可用 — 它位于 listenhub openapi video pixverse 下,所有素材都用公网 URL(不支持本地文件上传)。如果你想用口型同步、模仿、风格化、融合、过渡或营销 agent,但只配置了内部登录,请先用 listenhub openapi config set-key 配置 API Key。

模式

AI 会根据你提供的参考素材路由到对应模式。HappyHorse 和 SeeDance 共用 listenhub video create 命令;PixVerse 使用 listenhub openapi video pixverse generate,并需显式指定 --capability

仅用文字提示词生成视频,无需参考素材。三个模型家族都支持。

listenhub video create \
  --prompt "赛博朋克城市夜景,霓虹倒映在湿漉漉的街道上" \
  --model "happyhorse" \
  --resolution "1080p" \
  --ratio "16:9" \
  --duration 5 \
  --no-wait --json

把静态图片作为首帧让画面动起来。SeeDance 还可接收尾帧图片,在两张静图之间插值出过渡动画。

图片要求:jpgjpegpngwebp;本地文件最大 20 MB;宽高均 ≥ 300px;宽高比在 1:2.5 到 2.5:1 之间。

listenhub video create \
  --prompt "让画面以流畅的运动活起来" \
  --model "happyhorse" \
  --resolution "1080p" \
  --duration 5 \
  --first-frame "/path/to/scene.png" \
  --no-wait --json

使用 SeeDance frame 模式时,加上 --last-frame 并使用 doubao-seedance-2-* 模型。

HappyHorse 图生视频没有 --ratio — 输出比例由输入图片决定。SeeDance 仍接受 --ratio

提供 1–9 张参考图引导风格或角色。使用 HappyHorse 时,可在提示词中用 [Image 1][Image 2] 等引用具体图片。

图片要求:jpgjpegpngwebp;每张最大 20 MB;HappyHorse 建议短边 ≥ 400px。

listenhub video create \
  --prompt "[Image 1] 中的角色走在 [Image 2] 的街道上" \
  --model "happyhorse" \
  --resolution "1080p" \
  --ratio "16:9" \
  --duration 5 \
  --reference-image "/path/to/character.png" \
  --reference-image "/path/to/scene.png" \
  --no-wait --json

SeeDance 参考模式额外接受最多 3 个参考视频(mp4/mov,≤ 50 MB)和最多 3 个参考音频(mp3/wav,≤ 20 MB,需与图片或视频搭配)。

仅 PixVerse。 用音频文件或文本转语音驱动人物口型。源视频必须已存在于 PixVerse — 用 --source-video-id 引用,或用 --source-task-id 复用此前成功的任务。

用音频文件驱动(一个公网音频 URL,5–60 秒):

listenhub openapi video pixverse generate \
  --capability lip_sync \
  --source-video-id "abc123" \
  --audio "https://example.com/voice.mp3" \
  --quality 720p \
  --no-wait --json

用文本转语音驱动(嵌套 tts,不带 --audio):

listenhub openapi video pixverse generate \
  --capability lip_sync \
  --source-task-id "task_xyz" \
  --pixverse-json '{"tts":{"speakerId":"speaker_01","content":"大家好,欢迎来到本期节目"}}' \
  --quality 720p \
  --no-wait --json

音频文件和 TTS 二选一,不能同时给 — 同时提供会被拒绝。TTS 必须走嵌套的 --pixverse-json '{"tts":{...}}';不要用 --lip-sync-tts / --lip-sync-speaker-id / --lip-sync-content,契约不认这几个 flag。

视频编辑(HappyHorse)

编辑已有片段 — 改风格、换背景、重塑运动。仅 HappyHorse 支持;如果你在 SeeDance 上要求编辑,AI 会自动切到 HappyHorse。

视频要求:mp4/mov(推荐 H.264);输入 3–60 秒(输出上限 15 秒);≤ 100 MB;短边 ≥ 360px,长边 ≤ 4096px。可选传入 0–5 张参考图。

listenhub video create \
  --prompt "将背景替换为深邃的星空,保持人物动作不变" \
  --model "happyhorse" \
  --resolution "1080p" \
  --reference-video "/path/to/input.mp4" \
  --audio-setting "origin" \
  --no-wait --json

--audio-setting 控制音频:auto 让模型决定,origin 保留原声。视频编辑没有 --ratio--duration — 输出跟随输入视频。

其他 PixVerse 能力

PixVerse 通过 --capability 暴露更多原子能力,全部仅 OpenAPI 模式可用、输入为 URL:

能力输入约束
mimic(动作迁移)1 图 + 1 视频质量锁定 720p;运动源视频 5–30 秒
restyle--source-video-id(或 --source-task-id)+ --restyle-id
fusion嵌套 imageReferences(1–8),提示词用 @refName顶层 --image 必须为空
transition / multi_transition嵌套 multiTransition 关键帧(2–7)默认质量 360p
agent(ad_master / promo_mix)提示词 + 图片质量仅 720p/1080p;时长仅 20/30/60;promo_mix 需 ≥ 4 张图

参数

AI 会逐个询问这些参数,并套用合理的会话默认值。HappyHorse 和 SeeDance 用 --ratio / --duration 设比例和时长;PixVerse 用 --quality--aspect-ratio 替代 --resolution / --ratio

参数Flag说明
提示词--prompt自由文本。HappyHorse ≤ 2500(中文)/ ≤ 5000(非中文);SeeDance ≤ 500;PixVerse ≤ 2048
模型--modelhappyhorse(默认)、doubao-seedance-2-prodoubao-seedance-2-fastpixverse
分辨率--resolutionHappyHorse:720p/1080p;SeeDance:480p/720p/1080p(480p 仅 SeeDance)
画面比例--ratio图生视频和视频编辑不使用(比例跟随输入)
时长--duration单位秒。HappyHorse 3–15,SeeDance 4–15
首帧--first-frame图生视频源图片
尾帧--last-frame仅 SeeDance frame 模式
参考图--reference-image可重复;1–9(HappyHorse),或视频编辑参考图(0–5)
参考视频--reference-video视频编辑输入(HappyHorse)或 SeeDance 参考
音频设置--audio-setting仅视频编辑:autoorigin
Seed--seed可选;用于复现结果

PixVerse 专属 flag:--capability--quality(360p/540p/720p/1080p)、--aspect-ratio(9:16/16:9/1:1/4:3/3:4)、--source-video-id / --source-task-id--audio--agent-type--restyle-id,以及承载嵌套负载的 --pixverse-jsonttsimageReferencesmultiTransition)。

部分选择会被自动纠正:HappyHorse 的 480p 回退到 720p;doubao-seedance-2-fast 的 1080p 升级为 doubao-seedance-2-pro。AI 调整时会告诉你。

费用预估

生成前 AI 会先跑一次预估。想自己查费用,把 create 的参数对应到 estimate 命令:

# HappyHorse / SeeDance
listenhub video estimate --model "happyhorse" --resolution "1080p" --ratio "16:9" --duration 5 --json

# PixVerse — 对应 capability + quality + duration
listenhub openapi video pixverse estimate --capability text_to_video --model pixverse --quality 720p --duration 5 --json

视频编辑需额外加 --has-video-input--input-video-duration <秒>

输出

状态流转为 pendinggeneratinguploadingsuccess。成功后 AI 会报告视频 URL、时长、分辨率、比例、seed 和消耗的积分。

输出行为遵循配置中设定的 outputMode

  • inline(默认)或 both — 视频 URL 和元数据直接展示在对话中。
  • downloadboth — 文件同时保存到当前工作目录,使用基于主题的文件名(如 cyberpunk-city.mp4)。重名会自动去重。

回顾过往任务:listenhub video get <taskId> --json 返回单个任务,listenhub video list --json 列出最近任务。全局 flag 同样适用:--json / -j--no-wait--timeout <s>

API 参考

端点路径、请求参数和响应字段详见AI Video API 参考

On this page