STT-TTS
概念 openclaw 多模态 语音 技术
来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)
STT/TTS
Speech-to-Text(语音转文字)与 Text-to-Speech(文字转语音)的合称,是赋予 OpenClaw 等 Agent 「耳朵」和「嘴巴」的核心多模态能力模块。
在 OpenClaw 中的作用
- STT:让 Agent 能听懂用户的语音输入(如接入 OpenAI Whisper、MiniMax)。
- TTS:让 Agent 能以语音形式回应用户。
与感官模块的关系
OpenClaw 的能力框架中,外围感官能力均可模块化插拔:
- 嘴巴和耳朵:STT + TTS
- 眼睛:支持视觉的多模态模型
- 画笔:图像生成 API(如即梦 4.5)