跳转至

EVA 文档

对话

01 对话：日常聊天¶

你能完成¶

跑通一次完整对话链路：装载 → 发送 → 流式查看 → 重置。
熟悉界面与状态灯：何时能点按钮、何时只能等待。
用图片/文档/音频与模型沟通，并学会启用工具链。
看懂性能与上下文占用，及时处理卡顿或截断。

开始前先检查¶

本地模式：EVA_BACKEND 下有匹配平台的可执行（例 EVA_BACKEND/x86_64/win/cuda/llama.cpp/llama-server.exe），EVA_MODELS/llm 至少放一份 GGUF。首次启动会自动扫描 EVA_MODELS 并写入最小模型路径。
链接模式：准备好 OpenAI 兼容的 endpoint/key/model，确保网络可直连该端点（含 /v1 路径，未被代理/防火墙阻断）。
界面状态：右上角状态灯为“装载前”或“正常”才可操作；如显示惰性卸载，下一次发送会自动唤醒本地后端，无需手动重启。

分层上手（按顺序操作）¶

1) 选择模式并装载（必做）¶

点击主界面左上角 “装载”。
本地模式：在文件选择框挑一份 GGUF（默认指向 EVA_MODELS/llm 最小模型），确认后进入“装载中”动画。等到“模型日志”出现 listening on 127.0.0.1:8080 或 ready 即完成。
链接模式：填好 Endpoint/API Key/Model，确认后会停掉本地 llama-server 并切换到远端。状态灯变“正常”即可开始输入。
若端口占用或显存不足，本地管理器会自动尝试端口降级/CPU 回退；失败会解锁按钮便于重新选择。

2) 发送第一条消息（必做）¶

在底部输入框键入文本（支持 Markdown 粗体、列表等）。
需要多模态时可同时附加：
图片：拖拽到输入框或按 F1 截图；会编码成 image_url 追加到消息。
文档：拖入 doc/docx/xlsx/pptx/html/代码等，EVA 会用 doc2md 转成 Markdown 文本发送。
音频：点击上传或按 F2 录音，结束后自动转写为 input_audio。
按 Ctrl+Enter 或点 “发送”。界面进入“推理中”，只保留“重置”可用；本地惰性卸载时会先唤醒再自动继续发送。

3) 看懂回执（确认模型在工作）¶

流式输出：回复逐字出现，并在状态区打印生成速度（predicted_per_second 等）。
上下文条：顶部进度条展示 KV 占用比例，避免对话过长导致截断。
思考块：支持 reasoning 的模型会输出 <think>...</think>，灰底显示。
工具链：在“约定”勾选工具后，模型可能输出 <tool_call>{name,arguments}</tool_call>，EVA 自动执行并以 tool_response: 回灌，再继续下一轮。

4) 进阶：让模型“看见/听见/理解更多”¶

多份素材组合：文本+文档+多图+音频可同时发送，UI 会拼成 OpenAI 兼容的 messages.content 数组（见 widget_session.cpp::collectUserInputs）。
工具链调试：若模型未触发工具，确认提示词已包含工具描述（在“约定”勾选后自动注入），并检查输出中是否有 </tool_call>；解析失败会直接结束本轮。

5) 结束与继续¶

推理结束状态灯回到“正常”，可继续多轮；“重置”第一次点击会中断流式，第二次点击清空对话并重新注入系统提示。
惰性卸载开启时空闲会自动停 llama-server，但保留代理端口与对话记录；再次发送会先唤醒后端再继续，无需重新装载。

常见问题与排查路线¶

装载卡住：本地查看“模型日志”是否有 ready；无日志多因模型路径/权限/显存不足，可在“设置”切 CPU 或降低 ngl。链接模式用浏览器/curl 测试端点与 key。
发送无流：确认 127.0.0.1:代理端口 可达（本地），或远端未被代理拦截 SSE。状态区若有 invalid api key/model not found 按提示修正。
图片/音频未被识别：确认缩略图或 wav 图标已显示；本地需在“设置”勾选视觉模型路径（mmproj），链接模式端点必须支持 image_url/input_audio 字段。
速度很慢：本地检查 GPU 利用率，必要时增大 batch/线程；远端易受网络和服务负载影响，可换模型或端点。
上下文不足：进度条接近 100% 时可“重置”或在“设置”调大 nctx（会增加内存/显存占用）。

界面截图¶

对话页面示意图

下一步：掌握基础对话后，可进入 补完：初始形态 完成一次性长文续写，或继续探索其他增殖功能。

返回总览 · 下一页：补完