跳转至

03 语音交互:开麦即聊

你能完成

  • 通过 F2 录音→转写→发问的全链路,完全不敲字。
  • 直接上传音频文件(WAV/MP3/OGG/FLAC),自动封装为 input_audio 发送。
  • 在对话模式结合文本/图片提问,让模型“听见”上下文再回答。

开始前

  • 打开“增殖-声转文”选择 Whisper 模型;首次按 F2 也会弹窗选择,未选会阻断录音。
  • 确认麦克风可用,或准备好音频文件。录音状态灯为“录音中”时其余按钮会锁定。
  • 如果需要长对话,请保持在“对话”模式;补完模式不会带历史记忆。

操作步骤

  1. 选择模型:首次按 F2,在弹窗里选 Whisper 模型(路径可由 EVA_MODELS 自动填充最小模型)。
  2. 开始录音:再次按 F2 开始,状态灯变“录音中”。
  3. 结束并转写:第三次按 F2 结束,录音自动转写成文本填回输入框,可在文本基础上补充问题或上下文。
  4. 发送提问:按 Ctrl+Enter 或点 “发送”,语音转写将与文本一起发送。若同时附加图片/文档,会被拼成多模态消息。
  5. 改用文件(可选):将音频文件拖入输入区或点击上传按钮,发送前会自动封装为 audio_url

小技巧

  • 噪声环境:在输入框补充关键词或人名,帮助模型校正识别。
  • 长录音:分段录制更稳;模型回复过长可在提问里要求“100 字内”或“列 3 点”。
  • 提醒上下文:配合文本描述场景(会议主题/角色),转写更贴题。

常见问题

  • 没声/没文本:检查麦克风权限,确认状态区出现“录音中”;第一次未选模型会阻断录音,需重新按 F2 选择。
  • 乱码或口音不准:优先使用 16k/16bit 单声道 WAV,或更换更大的 Whisper 模型。
  • 回复太散:在提问中限制篇幅或要点数;必要时切换到补完模式做一次性续写。

语音页面示意

返回总览 · 上一页:补完 · 下一页:视觉交互