STT-TTS

概念 openclaw 多模态 语音 技术 来源数 1 Fri Apr 10 2026 08:00:00 GMT+0800 (China Standard Time)

STT/TTS

Speech-to-Text(语音转文字)与 Text-to-Speech(文字转语音)的合称,是赋予 OpenClaw 等 Agent 「耳朵」和「嘴巴」的核心多模态能力模块。

在 OpenClaw 中的作用

  • STT:让 Agent 能听懂用户的语音输入(如接入 OpenAI Whisper、MiniMax)。
  • TTS:让 Agent 能以语音形式回应用户。

与感官模块的关系

OpenClaw 的能力框架中,外围感官能力均可模块化插拔:

  • 嘴巴和耳朵:STT + TTS
  • 眼睛:支持视觉的多模态模型
  • 画笔:图像生成 API(如即梦 4.5)

来源