03 语音交互:开麦即聊
你能完成
- 通过 F2 录音→转写→发问的全链路,完全不敲字。
- 直接上传音频文件(WAV/MP3/OGG/FLAC),自动封装为
input_audio 发送。
- 在对话模式结合文本/图片提问,让模型“听见”上下文再回答。
开始前
- 打开“增殖-声转文”选择 Whisper 模型;首次按 F2 也会弹窗选择,未选会阻断录音。
- 确认麦克风可用,或准备好音频文件。录音状态灯为“录音中”时其余按钮会锁定。
- 如果需要长对话,请保持在“对话”模式;补完模式不会带历史记忆。
操作步骤
- 选择模型:首次按 F2,在弹窗里选 Whisper 模型(路径可由 EVA_MODELS 自动填充最小模型)。
- 开始录音:再次按 F2 开始,状态灯变“录音中”。
- 结束并转写:第三次按 F2 结束,录音自动转写成文本填回输入框,可在文本基础上补充问题或上下文。
- 发送提问:按
Ctrl+Enter 或点 “发送”,语音转写将与文本一起发送。若同时附加图片/文档,会被拼成多模态消息。
- 改用文件(可选):将音频文件拖入输入区或点击上传按钮,发送前会自动封装为
audio_url。
小技巧
- 噪声环境:在输入框补充关键词或人名,帮助模型校正识别。
- 长录音:分段录制更稳;模型回复过长可在提问里要求“100 字内”或“列 3 点”。
- 提醒上下文:配合文本描述场景(会议主题/角色),转写更贴题。
常见问题
- 没声/没文本:检查麦克风权限,确认状态区出现“录音中”;第一次未选模型会阻断录音,需重新按 F2 选择。
- 乱码或口音不准:优先使用 16k/16bit 单声道 WAV,或更换更大的 Whisper 模型。
- 回复太散:在提问中限制篇幅或要点数;必要时切换到补完模式做一次性续写。

返回总览 · 上一页:补完 · 下一页:视觉交互