ListenHubSkills

AI 声音

用 ListenHub-Voice-1.0 端到端生成音频——从一段文本脚本产出朗读、音效、多人对白、克隆音色,或图片转音频。

用端到端的 ListenHub-Voice-1.0 模型把一段文本脚本变成完整音频。区别于分段 TTS 拼接,模型直接产出一段连贯音频,可以带音效、多个说话人、克隆音色,或由参考图片衍生的旁白。

AI 声音当前限时免费开放。免费期内生成的音频仅供个人非商业用途,不得用于任何商业场景。免费期结束后将恢复计费,具体以届时公告为准。

触发

/listenhub-voice 调用本技能,或使用以下任一说法:

说法语言
生成音频 / 语音生成中文
端到端音频 / 图片转音频中文
多音色对白 / 参考音频克隆 / 音效生成中文
generate audio / sound effect英文
end-to-end audio / image to audio英文

需要先安装 ListenHub Skills——见 快速开始

快速示例

生成一段 20 秒的音频:"欢迎来到 ListenHub,这是你的每日简报。"

AI 收集脚本、音色和调参后,提交一个异步任务并轮询到音频生成完毕。你会拿到收听和下载链接。

适用场景

纯文本 / 音效

朗读脚本,并让模型把脚本中描述的音效一并合成——无需选音色。

单音色

用一个内置音色或平台 voice_type 朗读脚本。

多人对白

把 2–3 个音色分配给一段对话,逐句指派。

音色克隆

从一小段参考音频克隆音色,用它朗读你的脚本。

图片转音频

把一张参考图片变成一段短旁白音频。

如果只是用已注册的 ListenHub 音色朗读纯文本,/tts 延迟更低。需要音效、对白、克隆或图片驱动音频时用 /listenhub-voice 一步搞定。

模式

不传音色、不传图片——模型合成脚本以及脚本中描述的音效。

生成音频:"雨点打在窗上,远处一列火车驶过。"

一个音色朗读整段脚本——内置 ListenHub 音色或平台 voice_type

用一个温暖的女声读这段:"以下是今天的头条。"

两到三个音色对话。每句用 @音频N 前缀按顺序指派给某个音色。

做一段双人对白:@音频1 提问,@音频2 回答。

多音色请求里每个音色都必须支持参考音频。内置 voice_type 仅支持单音色。

从一小段公开参考音频克隆音色,再用它朗读你的脚本。

克隆 https://example.com/host.mp3 里的音色,读一遍我的开场白。

把一张参考图片变成一段短旁白。图片模式与音色互斥。

把这张图片描述成一段 15 秒的旁白。

参数

参数取值默认
文本最多 1400 字必填
音色1–3 个内置音色或参考音频无(纯文本)
图片一张参考图(与音色互斥)
语速-50100模型默认
音量-50100模型默认
音调-1212模型默认
格式mp3wavpcmogg_opusmp3
时长提示1110
水印开 / 关

音色与图片互斥——至多传一个。内置音色从 API 获取;问「有哪些音色?」可浏览带试听的列表。

输出

任务到达 success 后,你会得到:

  • 收听链接——在线播放生成的音频
  • 音频下载——说「下载音频」保存到本地(文件后缀跟随你选的 format
  • 任务详情——状态、计费时长、扣除积分

生成是异步的:任务经过 pendinggeneratinguploadingsuccess。失败时会报出原因,预留的积分自动退回。

API 参考

底层端点、请求字段和错误码见 ListenHub Voice API 参考

On this page