AI 声音

用 ListenHub-Voice-1.0 端到端生成音频——从一段文本脚本产出朗读、音效、多人对白、克隆音色，或图片转音频。

用端到端的 ListenHub-Voice-1.0 模型把一段文本脚本变成完整音频。区别于分段 TTS 拼接，模型直接产出一段连贯音频，可以带音效、多个说话人、克隆音色，或由参考图片衍生的旁白。

AI 声音当前限时免费开放。免费期内生成的音频仅供个人非商业用途，不得用于任何商业场景。免费期结束后将恢复计费，具体以届时公告为准。

触发

用 /listenhub-voice 调用本技能，或使用以下任一说法：

说法	语言
`生成音频` / `语音生成`	中文
`端到端音频` / `图片转音频`	中文
`多音色对白` / `参考音频克隆` / `音效生成`	中文
`generate audio` / `sound effect`	英文
`end-to-end audio` / `image to audio`	英文

需要先安装 ListenHub Skills——见快速开始。

快速示例

生成一段 20 秒的音频："欢迎来到 ListenHub，这是你的每日简报。"

AI 收集脚本、音色和调参后，提交一个异步任务并轮询到音频生成完毕。你会拿到收听和下载链接。

适用场景

纯文本 / 音效

朗读脚本，并让模型把脚本中描述的音效一并合成——无需选音色。

单音色

用一个内置音色或平台 voice_type 朗读脚本。

多人对白

把 2–3 个音色分配给一段对话，逐句指派。

音色克隆

从一小段参考音频克隆音色，用它朗读你的脚本。

图片转音频

把一张参考图片变成一段短旁白音频。

如果只是用已注册的 ListenHub 音色朗读纯文本，/tts 延迟更低。需要音效、对白、克隆或图片驱动音频时用 /listenhub-voice 一步搞定。

模式

不传音色、不传图片——模型合成脚本以及脚本中描述的音效。

生成音频："雨点打在窗上，远处一列火车驶过。"

一个音色朗读整段脚本——内置 ListenHub 音色或平台 voice_type。

用一个温暖的女声读这段："以下是今天的头条。"

两到三个音色对话。每句用 @音频N 前缀按顺序指派给某个音色。

做一段双人对白：@音频1 提问，@音频2 回答。

多音色请求里每个音色都必须支持参考音频。内置 voice_type 仅支持单音色。

从一小段公开参考音频克隆音色，再用它朗读你的脚本。

克隆 https://example.com/host.mp3 里的音色，读一遍我的开场白。

把一张参考图片变成一段短旁白。图片模式与音色互斥。

把这张图片描述成一段 15 秒的旁白。

参数

参数	取值	默认
文本	最多 1400 字	必填
音色	1–3 个内置音色或参考音频	无（纯文本）
图片	一张参考图（与音色互斥）	无
语速	`-50` 到 `100`	模型默认
音量	`-50` 到 `100`	模型默认
音调	`-12` 到 `12`	模型默认
格式	`mp3`、`wav`、`pcm`、`ogg_opus`	`mp3`
时长提示	`1` 到 `110` 秒	无
水印	开 / 关	关

音色与图片互斥——至多传一个。内置音色从 API 获取；问「有哪些音色？」可浏览带试听的列表。

输出

任务到达 success 后，你会得到：

收听链接——在线播放生成的音频
音频下载——说「下载音频」保存到本地（文件后缀跟随你选的 format）
任务详情——状态、计费时长、扣除积分

生成是异步的：任务经过 pending → generating → uploading → success。失败时会报出原因，预留的积分自动退回。

API 参考

底层端点、请求字段和错误码见 ListenHub Voice API 参考。