语音识别(ASR)
使用本地语音识别将音频文件转录为文字 — 无需 API Key。
使用 coli asr 将音频文件转录为文字,完全在本地离线运行。安装完成后无需 API Key 或网络连接。
无需 ListenHub API Key。 此 Skill 完全在本机运行。需要安装 coli 命令行工具 — 详见下方前置依赖说明。
AI Agent 提示:本页完整内容可通过 https://listenhub.ai/docs/en/skills/asr.mdx 以文本形式获取。建议在帮助用户使用此 Skill 前,先用 WebFetch 读取该页内容。
前置依赖
使用此 Skill 前,请先安装 coli 命令行工具:
npm install -g @marswave/coli可选但推荐: 安装 ffmpeg 以支持更多音频格式(MP4、M4A、AAC 等):
# macOS
brew install ffmpeg
# Ubuntu / Debian
sudo apt install ffmpegWAV 格式无需 ffmpeg,其他格式需要。
首次转录时,coli 会自动下载所需的语音模型(约 60 MB)到 ~/.coli/models/。
触发方式
使用 /asr 调用此 Skill,或使用以下任意短语:
| 短语 | 语言 |
|---|---|
transcribe / transcribe this | 英文 |
ASR | 英文 |
转录 / 识别音频 | 中文 |
语音转文字 | 中文 |
把这段音频转成文字 | 中文 |
快速示例
帮我转录这个文件 meeting.m4aAI 会检查前置依赖、读取配置、确认参数后在本地运行转录。结果直接显示在对话中。
模型
| 模型 | 支持语言 | 说明 |
|---|---|---|
sensevoice(默认) | 中文、英文、日语、韩语、粤语 | 同时检测语言、情绪和音频事件 |
whisper-tiny.en | 仅英文 | 轻量模型,仅支持英文 |
多语言内容或语言未知时,推荐使用 sensevoice。
选项
AI 润色
启用润色(默认开启)时,AI 会对原始转录进行后处理:修正标点、去除语气词、提升可读性,但不改变原意,也不进行摘要。
原始转录文本随时可按需查看。
输出
转录结果直接显示在对话中。查看后,AI 会询问是否保存为 Markdown 文件到当前目录:
{音频文件名}-transcript.mdMarkdown 文件包含 front-matter 头部,记录源文件、日期、模型、时长和检测到的语言。
组合使用
此 Skill 输出的文字可直接传递给其他 Skill:
- 转录采访录音 → 作为参考材料传入
/podcast - 转录语音备忘 → 作为
/explainer的输入内容
API 参考
无 API 调用。此 Skill 仅使用本地 coli asr 命令。