# 语音

当你希望时，OpenHuman 以语音优先的方式工作。STT、TTS，以及实时的 Google Meet 智能体都是核心功能的一部分，而不是第三方插件。

## 语音转文字

* **热键** - 按住说话和切换模式。
* **音频采集** - 支持跨平台麦克风采集，并带有语音活动检测。
* **流式转录** - 你一边说，文字一边出现。
* **幻觉过滤器** - 去除众所周知的伪影（“感谢观看”、由静音触发的短语）。
* **后处理** - 标点、大小写、口述内容清理。

口述可以替换你桌面上的当前文本输入，或者直接发送到与智能体的聊天中。

## 文本转语音

回复语音通过托管的 TTS 模型路由。智能体的回应可以用你选择的声音朗读出来，具有自然的节奏和韵律。语音选择可按用户配置，吉祥物头像会通过音素映射与音频流同步口型。

## 实时 Google Meet 智能体

OpenHuman 的旗舰语音集成：

* 通过嵌入式 webview 加入 Google Meet。
* 实时将音频流式发送到 STT，转录通话中的每个人，并将结构化笔记写入 [记忆树](/openhuman/zh/gong-neng/obsidian-wiki/memory-tree.md) ，随着会议进行。
* 当你让它发言时（或者它判断自己有有价值的内容要补充时），它会通过 TTS 模型生成音频，并且 **将其作为外发摄像头/麦克风流回放到会议中**，这样其他参与者就能真正听到它。

## 隐私

* 音频采集在本地进行。流式 STT 通过 OpenHuman 后端；除实时转录外，不保留任何录音。
* TTS 音频会被流式传输并丢弃——不会存储任何内容。
* 会议转录会进入你的本地记忆树，就像任何其他来源一样。

## 另见

* [记忆树](/openhuman/zh/gong-neng/obsidian-wiki/memory-tree.md) - Meet 的转录和笔记存放的位置。
* [自动模型路由](/openhuman/zh/gong-neng/model-routing.md) - Meet 的大脑使用 `hint:fast` 用于低延迟的对话轮次。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://tinyhumans.gitbook.io/openhuman/zh/gong-neng/native-tools/voice.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
