🎙️ Whisper 语音解析器
音频处理 · 本地转录 · 多语种支持
让大模型真正"听懂"人类世界的声浪起伏!基于 OpenAI 强大的 Whisper 开源模型引擎打造,全离线在您的本地硬件上将语音片段毫秒级转换为高清文本流。
OpenClaw Team
🚀 快速安装
在您的终端中执行以下命令即可完成安装:
npx clawhub install openai-whisper
📊 数据总览
| ⭐ 收藏点赞 | ☁️ 总计调用 | 👥 当前活跃 | 🎯 稳定版本 |
|---|---|---|---|
| 871 | 61.3w | 7,800 | v2.1.4 |
🎛️ 详解:它是如何运转的?
有别于那些需要昂贵按分钟收费的云端(如 Azure / AWS)语音识别服务,本插件以纯粹的本地暴力算法傲视群雄:
- 💻 纯正的边缘侧引擎渲染:彻底脱离联网限制。通过在您的设备上拉取
tiny,base甚至large级的 Whisper 权重模型,使用主机 CPU / 显存即可硬解音频,百分百保护会议机密与个人录音隐私。 - 🌐 支持 99 种以上的泛语种捕捉:无论说话人是带有浓重咖喱味的印度英语,还是夹杂着日语词汇的中文对白,Whisper 的泛化能力都可以精准将混合语种的短句毫无违和感地翻译并记录下来。
- ⏱️ 自动打点与时间轴(SRT)附着:不仅吐出干瘪的文字。如果要求输出富格式返回,它会带上精确到毫秒的 VTT / SRT 时间轴断点。非常适合 AI 用作全自动字幕视频切片的基底前置管道。
- 🧹 多文件容错封装:自动剔除输入音频流的无声片段,并且支持直接压载 mp3, wav, m4a, ogg 等一系列繁杂格式,无需人为使用 FFmpeg 在终端做二次转码。
🧭 典型业务场景剖析
📝 场景一:超级会议纪要提取官
将它和内部的工作流打通后:在长达三小时的跨国董事会结束后,人们只需将录音笔里的 M4A 文件丢进特定文件夹。监听 Agent 挂载 openai-whisper 全速解码后,会紧接着调用 LLM 把几万字的杂乱对话收缩成"重点议程"、"谁发了言"的 Markdown 表格,并一键推送到全公司的 Slack 里。
🤖 场景二:复古硬件的语音助手(Siri 杀手)
通过极为轻量的 tiny.en 模型挂载至树莓派(Raspberry Pi)等物联网终端中作为常驻环境听筒。您在家中无需打字,直接向着麦克风输出指令,插件瞬间将其文本化并移交大模型意图处理器,做到如丝般顺滑的"流式听觉反馈"家庭音控系统。
💻 常用命令参考
安装完成后,您不仅可以通过对话让 AI 自主调用,还可以在 CLI 侧手动发起操作:
极速转录模式——使用默认 base 模型对该中文录音进行抽取:
clawhub execute openai-whisper file="./meeting_01.mp3" language="zh"
跨语言通天塔——强制模型不仅要听懂,而且直接翻译生肉音频为英语:
clawhub execute openai-whisper file="./french_interview.wav" task="translate"
专业字幕组——要求输出带有时间戳的详细 SRT 数组结构:
clawhub execute openai-whisper file="./podcast_raw.m4a" output_format="srt" model="large-v3"
🛡️ 环境要求与性能门槛
- 🔧 必须安装底层工具链:这是一个高度硬核的 AI 模型模块。在您执行前,宿主机系统必须确保已安装
ffmpeg(用于底层音频解卷)以及可运行的python3(以支持原生 whisper 的推理管线)。 - 💻 硬件制约说明:如果在没有 GPU/CUDA 加速的纯轻薄笔记本上运行
large顶级模型,解码一小时的会议可能需要约同等甚至更多的耗时。建议低配机型默认锁定base或small权重级。
© 2026 OpenClaw. All rights reserved.
