跳转至

01 对话:日常聊天

你能完成

  • 跑通一次完整对话链路:装载 → 发送 → 流式查看 → 重置。
  • 熟悉界面与状态灯:何时能点按钮、何时只能等待。
  • 用图片/文档/音频与模型沟通,并学会启用工具链。
  • 看懂性能与上下文占用,及时处理卡顿或截断。

开始前先检查

  • 本地模式EVA_BACKEND 下有匹配平台的可执行(例 EVA_BACKEND/x86_64/win/cuda/llama.cpp/llama-server.exe),EVA_MODELS/llm 至少放一份 GGUF。首次启动会自动扫描 EVA_MODELS 并写入最小模型路径。
  • 链接模式:准备好 OpenAI 兼容的 endpoint/key/model,确保网络可直连该端点(含 /v1 路径,未被代理/防火墙阻断)。
  • 界面状态:右上角状态灯为“装载前”或“正常”才可操作;如显示惰性卸载,下一次发送会自动唤醒本地后端,无需手动重启。

分层上手(按顺序操作)

1) 选择模式并装载(必做)

  1. 点击主界面左上角 “装载”
  2. 本地模式:在文件选择框挑一份 GGUF(默认指向 EVA_MODELS/llm 最小模型),确认后进入“装载中”动画。等到“模型日志”出现 listening on 127.0.0.1:8080ready 即完成。
  3. 链接模式:填好 Endpoint/API Key/Model,确认后会停掉本地 llama-server 并切换到远端。状态灯变“正常”即可开始输入。
  4. 若端口占用或显存不足,本地管理器会自动尝试端口降级/CPU 回退;失败会解锁按钮便于重新选择。

2) 发送第一条消息(必做)

  1. 在底部输入框键入文本(支持 Markdown 粗体、列表等)。
  2. 需要多模态时可同时附加:
  3. 图片:拖拽到输入框或按 F1 截图;会编码成 image_url 追加到消息。
  4. 文档:拖入 doc/docx/xlsx/pptx/html/代码等,EVA 会用 doc2md 转成 Markdown 文本发送。
  5. 音频:点击上传或按 F2 录音,结束后自动转写为 input_audio
  6. Ctrl+Enter 或点 “发送”。界面进入“推理中”,只保留“重置”可用;本地惰性卸载时会先唤醒再自动继续发送。

3) 看懂回执(确认模型在工作)

  • 流式输出:回复逐字出现,并在状态区打印生成速度(predicted_per_second 等)。
  • 上下文条:顶部进度条展示 KV 占用比例,避免对话过长导致截断。
  • 思考块:支持 reasoning 的模型会输出 <think>...</think>,灰底显示。
  • 工具链:在“约定”勾选工具后,模型可能输出 <tool_call>{name,arguments}</tool_call>,EVA 自动执行并以 tool_response: 回灌,再继续下一轮。

4) 进阶:让模型“看见/听见/理解更多”

  • 监视帧(本地对话+视觉模型):在“设置”填写“监视帧率”(帧/秒),装载完成后会自动截取最近 60 秒屏幕帧并附到下一次发送。
  • 多份素材组合:文本+文档+多图+音频可同时发送,UI 会拼成 OpenAI 兼容的 messages.content 数组(见 widget_session.cpp::collectUserInputs)。
  • 工具链调试:若模型未触发工具,确认提示词已包含工具描述(在“约定”勾选后自动注入),并检查输出中是否有 </tool_call>;解析失败会直接结束本轮。

5) 结束与继续

  • 推理结束状态灯回到“正常”,可继续多轮;“重置”第一次点击会中断流式,第二次点击清空对话并重新注入系统提示。
  • 惰性卸载开启时空闲会自动停 llama-server,但保留代理端口与对话记录;再次发送会先唤醒后端再继续,无需重新装载。

常见问题与排查路线

  • 装载卡住:本地查看“模型日志”是否有 ready;无日志多因模型路径/权限/显存不足,可在“设置”切 CPU 或降低 ngl。链接模式用浏览器/curl 测试端点与 key。
  • 发送无流:确认 127.0.0.1:代理端口 可达(本地),或远端未被代理拦截 SSE。状态区若有 invalid api key/model not found 按提示修正。
  • 图片/音频未被识别:确认缩略图或 wav 图标已显示;本地需在“设置”勾选视觉模型路径(mmproj),链接模式端点必须支持 image_url/input_audio 字段。
  • 速度很慢:本地检查 GPU 利用率,必要时增大 batch/线程;远端易受网络和服务负载影响,可换模型或端点。
  • 上下文不足:进度条接近 100% 时可“重置”或在“设置”调大 nctx(会增加内存/显存占用)。

界面截图

对话页面示意图

下一步:掌握基础对话后,可进入 补完:初始形态 完成一次性长文续写,或继续探索其他增殖功能。

返回总览 · 下一页:补完