ListenHubSkills

语音识别(ASR)

使用本地语音识别将音频文件转录为文字 — 无需 API Key。

使用 coli asr 将音频文件转录为文字,完全在本地离线运行。安装完成后无需 API Key 或网络连接。

无需 ListenHub API Key。 此 Skill 完全在本机运行。需要安装 coli 命令行工具 — 详见下方前置依赖说明。

AI Agent 提示:本页完整内容可通过 https://listenhub.ai/docs/en/skills/asr.mdx 以文本形式获取。建议在帮助用户使用此 Skill 前,先用 WebFetch 读取该页内容。

前置依赖

使用此 Skill 前,请先安装 coli 命令行工具:

npm install -g @marswave/coli

可选但推荐: 安装 ffmpeg 以支持更多音频格式(MP4、M4A、AAC 等):

# macOS
brew install ffmpeg

# Ubuntu / Debian
sudo apt install ffmpeg

WAV 格式无需 ffmpeg,其他格式需要。

首次转录时,coli 会自动下载所需的语音模型(约 60 MB)到 ~/.coli/models/

触发方式

使用 /asr 调用此 Skill,或使用以下任意短语:

短语语言
transcribe / transcribe this英文
ASR英文
转录 / 识别音频中文
语音转文字中文
把这段音频转成文字中文

快速示例

帮我转录这个文件 meeting.m4a

AI 会检查前置依赖、读取配置、确认参数后在本地运行转录。结果直接显示在对话中。

模型

模型支持语言说明
sensevoice(默认)中文、英文、日语、韩语、粤语同时检测语言、情绪和音频事件
whisper-tiny.en仅英文轻量模型,仅支持英文

多语言内容或语言未知时,推荐使用 sensevoice

选项

AI 润色

启用润色(默认开启)时,AI 会对原始转录进行后处理:修正标点、去除语气词、提升可读性,但不改变原意,也不进行摘要。

原始转录文本随时可按需查看。

输出

转录结果直接显示在对话中。查看后,AI 会询问是否保存为 Markdown 文件到当前目录:

{音频文件名}-transcript.md

Markdown 文件包含 front-matter 头部,记录源文件、日期、模型、时长和检测到的语言。

组合使用

此 Skill 输出的文字可直接传递给其他 Skill:

  • 转录采访录音 → 作为参考材料传入 /podcast
  • 转录语音备忘 → 作为 /explainer 的输入内容

API 参考

无 API 调用。此 Skill 仅使用本地 coli asr 命令。

On this page