HyperAI

谷歌DeepMind推出Gemini 3 Flash新功能——Agentic Vision，标志着视觉理解进入“主动探究”时代。传统AI模型对图像的处理通常是一次性静态分析，一旦遗漏细节（如芯片上的序列号或远处的路牌），便只能猜测。而Agentic Vision通过将视觉推理与代码执行结合，使模型能够像人类一样主动“调查”图像。该功能引入“思考—行动—观察”循环机制： - 思考：模型分析用户问题和初始图像，制定多步操作计划； - 行动：生成并执行Python代码，对图像进行裁剪、旋转、标注或计算等操作； - 观察：将处理后的图像重新纳入上下文，提升后续判断的准确性。实测显示，启用代码执行后，Gemini 3 Flash在多数视觉基准测试中质量提升5%至10%。 Agentic Vision已支持多种创新应用场景： 1. 精准放大与检测：如建筑图纸验证平台PlanCheckSolver.com，通过代码逐块裁剪并分析高分辨率图像，准确率提升5%，确保符合复杂建筑规范。 2. 图像标注：模型不再仅描述图像，而是直接执行代码绘制边界框和数字标签，实现“视觉草稿板”，避免计数错误。 3. 视觉数学与绘图：面对密集表格或复杂计算，模型可提取数据、编写Python代码进行标准化处理，并生成专业Matplotlib图表，替代易出错的推测式推理。未来，谷歌计划进一步拓展该能力：让代码驱动行为更“隐式”（无需明确提示即可自动缩放或旋转），增加网络搜索、反向图像搜索等工具，并将Agentic Vision推广至更多模型版本。目前，开发者可通过Google AI Studio和Vertex AI的Gemini API接入该功能，也可在Gemini应用中开启“思考”模式体验。相关文档已上线，助力开发者快速上手。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Gemini 3 Flash 引入智能视觉功能，开启AI图像理解新体验

相关链接

Command Palette

Gemini 3 Flash 引入智能视觉功能，开启AI图像理解新体验

相关链接

Command Palette

Gemini 3 Flash 引入智能视觉功能，开启AI图像理解新体验

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟