AI 声音
用 ListenHub-Voice-1.0 端到端生成音频——从一段文本脚本产出朗读、音效、多人对白、克隆音色,或图片转音频。
用端到端的 ListenHub-Voice-1.0 模型把一段文本脚本变成完整音频。区别于分段 TTS 拼接,模型直接产出一段连贯音频,可以带音效、多个说话人、克隆音色,或由参考图片衍生的旁白。
AI 声音当前限时免费开放。免费期内生成的音频仅供个人非商业用途,不得用于任何商业场景。免费期结束后将恢复计费,具体以届时公告为准。
触发
用 /listenhub-voice 调用本技能,或使用以下任一说法:
| 说法 | 语言 |
|---|---|
生成音频 / 语音生成 | 中文 |
端到端音频 / 图片转音频 | 中文 |
多音色对白 / 参考音频克隆 / 音效生成 | 中文 |
generate audio / sound effect | 英文 |
end-to-end audio / image to audio | 英文 |
需要先安装 ListenHub Skills——见 快速开始。
快速示例
生成一段 20 秒的音频:"欢迎来到 ListenHub,这是你的每日简报。"AI 收集脚本、音色和调参后,提交一个异步任务并轮询到音频生成完毕。你会拿到收听和下载链接。
适用场景
纯文本 / 音效
朗读脚本,并让模型把脚本中描述的音效一并合成——无需选音色。
单音色
用一个内置音色或平台 voice_type 朗读脚本。
多人对白
把 2–3 个音色分配给一段对话,逐句指派。
音色克隆
从一小段参考音频克隆音色,用它朗读你的脚本。
图片转音频
把一张参考图片变成一段短旁白音频。
如果只是用已注册的 ListenHub 音色朗读纯文本,/tts 延迟更低。需要音效、对白、克隆或图片驱动音频时用 /listenhub-voice 一步搞定。
模式
不传音色、不传图片——模型合成脚本以及脚本中描述的音效。
生成音频:"雨点打在窗上,远处一列火车驶过。"一个音色朗读整段脚本——内置 ListenHub 音色或平台 voice_type。
用一个温暖的女声读这段:"以下是今天的头条。"两到三个音色对话。每句用 @音频N 前缀按顺序指派给某个音色。
做一段双人对白:@音频1 提问,@音频2 回答。多音色请求里每个音色都必须支持参考音频。内置 voice_type 仅支持单音色。
从一小段公开参考音频克隆音色,再用它朗读你的脚本。
克隆 https://example.com/host.mp3 里的音色,读一遍我的开场白。把一张参考图片变成一段短旁白。图片模式与音色互斥。
把这张图片描述成一段 15 秒的旁白。参数
| 参数 | 取值 | 默认 |
|---|---|---|
| 文本 | 最多 1400 字 | 必填 |
| 音色 | 1–3 个内置音色或参考音频 | 无(纯文本) |
| 图片 | 一张参考图(与音色互斥) | 无 |
| 语速 | -50 到 100 | 模型默认 |
| 音量 | -50 到 100 | 模型默认 |
| 音调 | -12 到 12 | 模型默认 |
| 格式 | mp3、wav、pcm、ogg_opus | mp3 |
| 时长提示 | 1 到 110 秒 | 无 |
| 水印 | 开 / 关 | 关 |
音色与图片互斥——至多传一个。内置音色从 API 获取;问「有哪些音色?」可浏览带试听的列表。
输出
任务到达 success 后,你会得到:
- 收听链接——在线播放生成的音频
- 音频下载——说「下载音频」保存到本地(文件后缀跟随你选的
format) - 任务详情——状态、计费时长、扣除积分
生成是异步的:任务经过 pending → generating → uploading → success。失败时会报出原因,预留的积分自动退回。
API 参考
底层端点、请求字段和错误码见 ListenHub Voice API 参考。