跳转至

EVA 文档

视觉交互

04 视觉交互：看图说话¶

你能完成¶

让模型解读截图、表格、界面或照片，结合文本给出建议。
批量上传/截屏多张图片，按需逐步提问。
在本地模式挂载视觉模型（mmproj），或直接走远端多模态接口。

开始前¶

本地模式：在“设置”选择视觉编码模型 mmproj；若 GGUF 与主模型同目录，EVA 会自动挂载。显存不足可先用小模型或降低分辨率。
链接模式：确认端点支持 image_url 字段。

操作步骤¶

附加图片：将图片拖入输入框或右键上传；按 F1 可截屏并自动附加。多张图会组成 messages.content 数组发送。
描述问题：在输入框写明目标，如“提取表格里的销售额”或“这条崩溃日志该怎么排查”。
发送：按 Ctrl+Enter 或点 “发送”。本地会先预解码图片再提问；链接模式直接走远端多模态接口。
查看回复：流式输出中包含文本结论；若启用工具，模型仍可在看图后触发工具链。

小技巧¶

表格/代码图：要求“逐行/逐列说明”，避免遗漏。需要复核可要求“列出原文数字再计算”。
UI/报错：补充“当前操作/预期结果”，让模型聚焦。长页面可分段截图。

常见问题¶

模型说看不到图：确认输入框下有缩略图；本地检查 mmproj 路径；远端确认端点支持图片。
结果模糊或跑偏：图过长或压缩严重，建议裁剪重点区域；必要时分两轮提问。
本地速度慢：检查显存占用，尝试使用更小 mmproj，或减少图片分辨率/数量。

视觉页面示意

返回总览 · 上一页：语音交互 · 下一页：文生图