跳转至

EVA 文档

语音交互

03 语音交互：开麦即聊¶

你能完成¶

通过 F2 录音→转写→发问的全链路，完全不敲字。
直接上传音频文件（WAV/MP3/OGG/FLAC），自动封装为 input_audio 发送。
在对话模式结合文本/图片提问，让模型“听见”上下文再回答。

开始前¶

打开“增殖-声转文”选择 Whisper 模型；首次按 F2 也会弹窗选择，未选会阻断录音。
确认麦克风可用，或准备好音频文件。录音状态灯为“录音中”时其余按钮会锁定。
如果需要长对话，请保持在“对话”模式；补完模式不会带历史记忆。

操作步骤¶

选择模型：首次按 F2，在弹窗里选 Whisper 模型（路径可由 EVA_MODELS 自动填充最小模型）。
开始录音：再次按 F2 开始，状态灯变“录音中”。
结束并转写：第三次按 F2 结束，录音自动转写成文本填回输入框，可在文本基础上补充问题或上下文。
发送提问：按 Ctrl+Enter 或点 “发送”，语音转写将与文本一起发送。若同时附加图片/文档，会被拼成多模态消息。
改用文件（可选）：将音频文件拖入输入区或点击上传按钮，发送前会自动封装为 audio_url。

小技巧¶

噪声环境：在输入框补充关键词或人名，帮助模型校正识别。
长录音：分段录制更稳；模型回复过长可在提问里要求“100 字内”或“列 3 点”。
提醒上下文：配合文本描述场景（会议主题/角色），转写更贴题。

常见问题¶

没声/没文本：检查麦克风权限，确认状态区出现“录音中”；第一次未选模型会阻断录音，需重新按 F2 选择。
乱码或口音不准：优先使用 16k/16bit 单声道 WAV，或更换更大的 Whisper 模型。
回复太散：在提问中限制篇幅或要点数；必要时切换到补完模式做一次性续写。

语音页面示意

返回总览 · 上一页：补完 · 下一页：视觉交互