跳转至

04 视觉交互:看图说话

你能完成

  • 让模型解读截图、表格、界面或照片,结合文本给出建议。
  • 批量上传/截屏多张图片,按需逐步提问。
  • 在本地模式挂载视觉模型(mmproj),或直接走远端多模态接口。

开始前

  • 本地模式:在“设置”选择视觉编码模型 mmproj;若 GGUF 与主模型同目录,EVA 会自动挂载。显存不足可先用小模型或降低分辨率。
  • 链接模式:确认端点支持 image_url 字段。
  • 可选:在“设置”填写“监视帧率”,本地对话时会自动附上最近 60 秒的屏幕帧。

操作步骤

  1. 附加图片:将图片拖入输入框或右键上传;按 F1 可截屏并自动附加。多张图会组成 messages.content 数组发送。
  2. 描述问题:在输入框写明目标,如“提取表格里的销售额”或“这条崩溃日志该怎么排查”。
  3. 发送:按 Ctrl+Enter 或点 “发送”。本地会先预解码图片再提问;链接模式直接走远端多模态接口。
  4. 查看回复:流式输出中包含文本结论;若启用工具,模型仍可在看图后触发工具链。

小技巧

  • 表格/代码图:要求“逐行/逐列说明”,避免遗漏。需要复核可要求“列出原文数字再计算”。
  • UI/报错:补充“当前操作/预期结果”,让模型聚焦。长页面可分段截图。
  • 监视帧:适合对实时界面提问,帧率不宜过高以免占用显存/带宽。

常见问题

  • 模型说看不到图:确认输入框下有缩略图;本地检查 mmproj 路径;远端确认端点支持图片。
  • 结果模糊或跑偏:图过长或压缩严重,建议裁剪重点区域;必要时分两轮提问。
  • 本地速度慢:检查显存占用,或暂时关闭监视帧/使用更小 mmproj。

视觉页面示意

返回总览 · 上一页:语音交互 · 下一页:文生图