语音识别（ASR）

使用 coli CLI 在本地将音频文件转录为文字 — 多语言、可选 AI 润色、完全离线、无需 API Key。

使用 coli asr 将音频文件转录为文字。它通过本地语音识别模型完全在本机运行，因此不需要 ListenHub API Key；模型下载完成后也无需联网。

无需 ListenHub API Key。 此 Skill 仅在本地运行 — 不会调用 ListenHub API。它依赖 coli 命令行工具（与 listenhub 是两个不同的工具）。详见下方前置依赖。

触发方式

使用 /asr 调用此 Skill，或使用以下任意短语：

短语	语言
`transcribe` / `transcribe this`	英文
`ASR`	英文
`转录` / `识别音频`	中文
`语音转文字`	中文
`把这段音频转成文字`	中文

前置依赖

此 Skill 依赖 coli CLI，而非 listenhub CLI。只需安装一次：

npm install -g @marswave/coli

可选但推荐： 安装 ffmpeg 以支持压缩格式（MP4、M4A、AAC 等）：

# macOS
brew install ffmpeg

# Ubuntu / Debian
sudo apt install ffmpeg

WAV 格式无需 ffmpeg 即可转录，其他格式需要它来解码。

首次运行下载模型

识别模型不随 CLI 一起打包。首次转录时，coli 会自动下载所需模型（约 60 MB）到 ~/.coli/models/。每个模型只下载一次，耗时片刻 — 若模型尚未就绪，AI 会提示正在下载。此后每次运行都复用缓存的模型，立即开始。

下载完成后，转录过程完全离线：音频不会离开你的机器，也不会发起任何网络请求。

快速示例

帮我转录这个文件 meeting.m4a

AI 会检查前置依赖、读取配置、确认模型与润色设置，然后在本地运行转录。结果直接显示在对话中。

模型

此 Skill 内置两个识别模型。请根据音频中的语言，以及是否需要情绪等额外信号来选择。

模型	支持语言	检测情绪 / 事件	说明
`sensevoice`（默认）	中文、英文、日语、韩语、粤语	是	推荐用于多语言内容或语言未知的场景
`whisper-tiny.en`	仅英文	否	更小的英文专用模型

除非你的音频确定为英文且想用更轻量的模型，否则建议使用 sensevoice。它是默认选项，也是更通用的选择 — 覆盖五种语言，并返回下文所述的语言、情绪和音频事件信号。

检测到的元数据

使用 JSON 输出运行时，sensevoice 返回的不只是转录文本。结果还包含：

lang — 检测到的口语语言
emotion — 检测到的语音情绪
event — 检测到的非语音音频事件（例如背景声）
duration — 音频时长（秒）

AI 会在转录文本旁展示 lang、emotion 和 duration，并将它们写入 Markdown 导出文件的头部。whisper-tiny.en 返回转录文本和 duration，但不产生情绪或事件检测。

AI 润色

润色是在 coli 返回文本后，由 AI 对原始转录做的一次后处理，默认开启。

模式	你得到的内容
开启润色（默认）	AI 对原始转录进行改写：修正标点、去除语气词、提升可读性 — 但不改变原意，不做摘要，也不进行转述
关闭润色	模型返回的原始转录文本，原样保留，未经编辑

原始转录始终保留。即使开启润色，你也可以让 AI 展示未经编辑的原文。要对单次转录关闭润色，在请求中说明即可（例如 "transcribe interview.wav, no polish"）；要修改默认值，请重新配置此 Skill。

输出

转录结果直接显示在对话中，随后是检测到的元数据：

转录完成

{转录文本}

─────────────────
lang: {lang} · emotion: {emotion} · duration: {duration}s

若开启润色，会展示润色后的版本并标注为 AI 优化。

Markdown 导出

展示结果后，AI 会询问是否将转录保存为 Markdown 文件到当前工作目录：

{音频文件名}-transcript.md

文件包含转录文本（开启润色时为润色版本），并带有 front-matter 头部，记录源文件、日期、模型、时长和检测到的语言：

---
source: meeting.m4a
date: 2026-06-25
model: sensevoice
duration: 312s
lang: zh
---

{转录文本}

配置

设置按项目存储在 .listenhub/asr/config.json 中，首次使用时以合理默认值（sensevoice、开启润色）自动创建。无需任何配置即可开始使用。要修改默认值，让 AI 重新配置即可；它会引导你选择模型与润色选项并保存。

设置项	默认值	可选值
`model`	`sensevoice`	`sensevoice`、`whisper-tiny.en`
`polish`	`true`	`true`、`false`

CLI 命令

此 Skill 驱动 coli asr 命令。使用 JSON 输出，以便 AI 读取检测到的元数据：

# 以 JSON 输出转录（返回 text、lang、emotion、event、duration）
coli asr -j --model sensevoice "meeting.m4a"

# 仅英文、更轻量的模型
coli asr -j --model whisper-tiny.en "talk.wav"

运行 coli asr --help 查看你所安装版本当前支持的全部参数。

组合使用

此 Skill 输出的转录文本可在同一对话中直接传递给其他 Skill：

转录采访录音，然后作为参考材料传入 /podcast
转录语音备忘，然后作为 /explainer 的输入

更多链式工作流见组合 Skills。

API 参考

无。此 Skill 不发起任何 API 调用 — 仅使用本地 coli asr 命令。

语音识别（ASR）

On this page