ListenHubOpenAPI

核心概念

Episode、Speaker、生成模式与数据流说明。

基本概念

  • Episode(单集) — ListenHub 的基本内容单元。每个单集有唯一的 episodeId,包含音频、文本脚本和元数据。
  • Speaker(音色) — 定义音频的声学特征。通过 speakerId 标识,包含语言和性别等属性。调用 GET /v1/speakers/list 获取可用音色列表,或浏览语音角色文档

生成模式

模式子模式说明生成时间API 端点
Podcastquick快速生成,效率优先,适合新闻快报等时效性内容1-2 分钟/v1/podcast/episodes
debate双主持人辩论形式,适合观点讨论和多角度分析2-4 分钟
deep深度分析,内容质量高,适合专业知识分享和深度解读2-4 分钟
Text to SpeechsmartAI 智能优化内容后再合成,适合修复不通顺语句和错别字1-2 分钟/v1/flow-speech/episodes
direct文本直接转换语音,适合已完善的文本和播报1-2 分钟
Content Extract异步 URL 内容提取,适合文章解析、调研和内容分析10-30 秒/v1/content/extract

Podcast 模式支持选择 1-2 个 Speaker(单人或双人播客)。debate 模式必须使用 2 个 Speaker。

输出类型

每个 Episode 生成后可获取两类数据:脚本文本和音频文件。

脚本

音频生成期间,可通过 SSE 提前获取大纲和脚本文本,无需等待音频完成:

  • Podcast:创建后 20-60 秒开始推送
  • Text to Speech:创建后约 3 秒开始推送

音频文件

音频生成完成后,响应中包含以下字段:

字段格式说明
audioStreamUrlM3U8流式播放,适合实时场景
audioUrlMP3完整文件,适合下载和离线使用

Playground 在线体验

ListenHub 提供在线 Playground,无需编写代码即可体验多音色语音合成。

访问地址Multi-speaker TTS Playground

  • 多角色对话——一次生成包含多个音色的对话音频
  • 灵活分配——为每段台词独立指定音色
  • 即时试听——在线编辑脚本,实时预览效果

适用于有声书/广播剧制作、对话式内容生成和产品演示快速制作。

下一步

On this page