04 视觉交互:看图说话
你能完成
- 让模型解读截图、表格、界面或照片,结合文本给出建议。
- 批量上传/截屏多张图片,按需逐步提问。
- 在本地模式挂载视觉模型(mmproj),或直接走远端多模态接口。
开始前
- 本地模式:在“设置”选择视觉编码模型 mmproj;若 GGUF 与主模型同目录,EVA 会自动挂载。显存不足可先用小模型或降低分辨率。
- 链接模式:确认端点支持
image_url 字段。
- 可选:在“设置”填写“监视帧率”,本地对话时会自动附上最近 60 秒的屏幕帧。
操作步骤
- 附加图片:将图片拖入输入框或右键上传;按 F1 可截屏并自动附加。多张图会组成
messages.content 数组发送。
- 描述问题:在输入框写明目标,如“提取表格里的销售额”或“这条崩溃日志该怎么排查”。
- 发送:按
Ctrl+Enter 或点 “发送”。本地会先预解码图片再提问;链接模式直接走远端多模态接口。
- 查看回复:流式输出中包含文本结论;若启用工具,模型仍可在看图后触发工具链。
小技巧
- 表格/代码图:要求“逐行/逐列说明”,避免遗漏。需要复核可要求“列出原文数字再计算”。
- UI/报错:补充“当前操作/预期结果”,让模型聚焦。长页面可分段截图。
- 监视帧:适合对实时界面提问,帧率不宜过高以免占用显存/带宽。
常见问题
- 模型说看不到图:确认输入框下有缩略图;本地检查 mmproj 路径;远端确认端点支持图片。
- 结果模糊或跑偏:图过长或压缩严重,建议裁剪重点区域;必要时分两轮提问。
- 本地速度慢:检查显存占用,或暂时关闭监视帧/使用更小 mmproj。

返回总览 · 上一页:语音交互 · 下一页:文生图