STT-TTS

概念 openclaw 多模态语音技术来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)

STT/TTS

Speech-to-Text（语音转文字）与 Text-to-Speech（文字转语音）的合称，是赋予 OpenClaw 等 Agent 「耳朵」和「嘴巴」的核心多模态能力模块。

在 OpenClaw 中的作用

STT：让 Agent 能听懂用户的语音输入（如接入 OpenAI Whisper、MiniMax）。
TTS：让 Agent 能以语音形式回应用户。

与感官模块的关系

OpenClaw 的能力框架中，外围感官能力均可模块化插拔：

嘴巴和耳朵：STT + TTS
眼睛：支持视觉的多模态模型
画笔：图像生成 API（如即梦 4.5）

来源

src-大白话拆解OpenClaw-高达