01 对话:日常聊天¶
你能完成¶
- 跑通一次完整对话链路:装载 → 发送 → 流式查看 → 重置。
- 熟悉界面与状态灯:何时能点按钮、何时只能等待。
- 用图片/文档/音频与模型沟通,并学会启用工具链。
- 看懂性能与上下文占用,及时处理卡顿或截断。
开始前先检查¶
- 本地模式:
EVA_BACKEND下有匹配平台的可执行(例EVA_BACKEND/x86_64/win/cuda/llama.cpp/llama-server.exe),EVA_MODELS/llm至少放一份 GGUF。首次启动会自动扫描EVA_MODELS并写入最小模型路径。 - 链接模式:准备好 OpenAI 兼容的
endpoint/key/model,确保网络可直连该端点(含/v1路径,未被代理/防火墙阻断)。 - 界面状态:右上角状态灯为“装载前”或“正常”才可操作;如显示惰性卸载,下一次发送会自动唤醒本地后端,无需手动重启。
分层上手(按顺序操作)¶
1) 选择模式并装载(必做)¶
- 点击主界面左上角 “装载”。
- 本地模式:在文件选择框挑一份 GGUF(默认指向
EVA_MODELS/llm最小模型),确认后进入“装载中”动画。等到“模型日志”出现listening on 127.0.0.1:8080或ready即完成。 - 链接模式:填好
Endpoint/API Key/Model,确认后会停掉本地 llama-server 并切换到远端。状态灯变“正常”即可开始输入。 - 若端口占用或显存不足,本地管理器会自动尝试端口降级/CPU 回退;失败会解锁按钮便于重新选择。
2) 发送第一条消息(必做)¶
- 在底部输入框键入文本(支持 Markdown 粗体、列表等)。
- 需要多模态时可同时附加:
- 图片:拖拽到输入框或按
F1截图;会编码成image_url追加到消息。 - 文档:拖入 doc/docx/xlsx/pptx/html/代码等,EVA 会用 doc2md 转成 Markdown 文本发送。
- 音频:点击上传或按
F2录音,结束后自动转写为input_audio。 - 按
Ctrl+Enter或点 “发送”。界面进入“推理中”,只保留“重置”可用;本地惰性卸载时会先唤醒再自动继续发送。
3) 看懂回执(确认模型在工作)¶
- 流式输出:回复逐字出现,并在状态区打印生成速度(
predicted_per_second等)。 - 上下文条:顶部进度条展示 KV 占用比例,避免对话过长导致截断。
- 思考块:支持 reasoning 的模型会输出
<think>...</think>,灰底显示。 - 工具链:在“约定”勾选工具后,模型可能输出
<tool_call>{name,arguments}</tool_call>,EVA 自动执行并以tool_response:回灌,再继续下一轮。
4) 进阶:让模型“看见/听见/理解更多”¶
- 监视帧(本地对话+视觉模型):在“设置”填写“监视帧率”(帧/秒),装载完成后会自动截取最近 60 秒屏幕帧并附到下一次发送。
- 多份素材组合:文本+文档+多图+音频可同时发送,UI 会拼成 OpenAI 兼容的
messages.content数组(见widget_session.cpp::collectUserInputs)。 - 工具链调试:若模型未触发工具,确认提示词已包含工具描述(在“约定”勾选后自动注入),并检查输出中是否有
</tool_call>;解析失败会直接结束本轮。
5) 结束与继续¶
- 推理结束状态灯回到“正常”,可继续多轮;“重置”第一次点击会中断流式,第二次点击清空对话并重新注入系统提示。
- 惰性卸载开启时空闲会自动停 llama-server,但保留代理端口与对话记录;再次发送会先唤醒后端再继续,无需重新装载。
常见问题与排查路线¶
- 装载卡住:本地查看“模型日志”是否有
ready;无日志多因模型路径/权限/显存不足,可在“设置”切 CPU 或降低ngl。链接模式用浏览器/curl 测试端点与 key。 - 发送无流:确认
127.0.0.1:代理端口可达(本地),或远端未被代理拦截 SSE。状态区若有invalid api key/model not found按提示修正。 - 图片/音频未被识别:确认缩略图或 wav 图标已显示;本地需在“设置”勾选视觉模型路径(mmproj),链接模式端点必须支持
image_url/input_audio字段。 - 速度很慢:本地检查 GPU 利用率,必要时增大 batch/线程;远端易受网络和服务负载影响,可换模型或端点。
- 上下文不足:进度条接近 100% 时可“重置”或在“设置”调大
nctx(会增加内存/显存占用)。
界面截图¶

下一步:掌握基础对话后,可进入 补完:初始形态 完成一次性长文续写,或继续探索其他增殖功能。