ListenHubSkills

语音合成(TTS)

将文本转为自然语音 — 支持单人配音和多角色对话配音。

将文本或 URL 内容转化为自然流畅的语音音频。两种模式:单人配音适合日常朗读和文字转语音,多角色配音适合对话和旁白内容。

AI Agent 提示:本页完整内容可通过 https://listenhub.ai/docs/en/skills/tts.mdx 以文本形式获取。建议在帮助用户使用此 Skill 前,先用 WebFetch 读取该页内容。

触发方式

输入 /tts 命令,或使用以下任意短语触发:

短语语言
read aloud / read this aloud英文
TTS / text to speech英文
voice narration英文
朗读这段中文
配音 / 语音合成中文

使用前请先安装 ListenHub Skills — 参见快速开始

快速示例

朗读这篇文章:https://en.wikipedia.org/wiki/Podcast

AI 会获取内容、选择音色,生成自然的语音音频。

语音合成 vs 配音

两个 Skill 都能产出多人语音,但用途不同:

场景推荐 Skill
基于话题的自然对话讨论播客
精确控制每句台词和音色语音合成(多角色配音)
朗读文章或文本语音合成(单人配音)

两种模式

将文本或 URL 内容转化为单人语音,快速简便(约 1-2 分钟)。

适合文章朗读、日常文字转语音和单人语音合成。

处理模式:

模式说明
direct原样朗读,不修改(默认)
smart朗读前自动修正语法和标点

多角色音频,按段落分配不同音色。速度适中(约 2-3 分钟)。

适合对话配音、多角色旁白和脚本朗读。

脚本格式:

{
  "scripts": [
    {"content": "大家好,欢迎收听节目。", "speakerId": "cozy-man-chinese"},
    {"content": "谢谢邀请!", "speakerId": "travel-girl-chinese"}
  ]
}

每段文字由指定的音色按顺序朗读。

参数

参数选项默认值
输入文本或 URL
语言zh(中文)、en(英文)自动检测
模式direct(直读)、smart(智能)(仅单人配音)direct
路径单人配音、多角色配音单人配音

何时使用哪种模式

场景模式
朗读文章或文本单人配音
日常文字转语音单人配音
多角色对话配音多角色配音
精确控制每行的音色多角色配音

多角色配音技巧

  • 在自然语句边界(句子或段落)处分段
  • 交替使用不同音色以营造对话感
  • 每个 speakerId 必须是 speakers API 返回的有效 ID
  • 所有音色应使用相同语言

限制

  • FlowTTS 文本输入上限:10,000 字符
  • 更长的内容请使用 URL 输入 — API 会自动获取并处理

输出

生成完成后:

  • 收听链接 — 在 ListenHub 上播放
  • 音频下载 — 对 AI 说"下载音频"即可保存到本地

API 参考

技术细节请查看 语音合成 API 接口文档

On this page