HyperAIHyperAI

Command Palette

Search for a command to run...

Gemini 3 Flash 引入智能视觉功能,开启AI图像理解新体验

谷歌DeepMind推出Gemini 3 Flash新功能——Agentic Vision,标志着视觉理解进入“主动探究”时代。传统AI模型对图像的处理通常是一次性静态分析,一旦遗漏细节(如芯片上的序列号或远处的路牌),便只能猜测。而Agentic Vision通过将视觉推理与代码执行结合,使模型能够像人类一样主动“调查”图像。 该功能引入“思考—行动—观察”循环机制: - 思考:模型分析用户问题和初始图像,制定多步操作计划; - 行动:生成并执行Python代码,对图像进行裁剪、旋转、标注或计算等操作; - 观察:将处理后的图像重新纳入上下文,提升后续判断的准确性。 实测显示,启用代码执行后,Gemini 3 Flash在多数视觉基准测试中质量提升5%至10%。 Agentic Vision已支持多种创新应用场景: 1. 精准放大与检测:如建筑图纸验证平台PlanCheckSolver.com,通过代码逐块裁剪并分析高分辨率图像,准确率提升5%,确保符合复杂建筑规范。 2. 图像标注:模型不再仅描述图像,而是直接执行代码绘制边界框和数字标签,实现“视觉草稿板”,避免计数错误。 3. 视觉数学与绘图:面对密集表格或复杂计算,模型可提取数据、编写Python代码进行标准化处理,并生成专业Matplotlib图表,替代易出错的推测式推理。 未来,谷歌计划进一步拓展该能力:让代码驱动行为更“隐式”(无需明确提示即可自动缩放或旋转),增加网络搜索、反向图像搜索等工具,并将Agentic Vision推广至更多模型版本。 目前,开发者可通过Google AI Studio和Vertex AI的Gemini API接入该功能,也可在Gemini应用中开启“思考”模式体验。相关文档已上线,助力开发者快速上手。

相关链接

Gemini 3 Flash 引入智能视觉功能,开启AI图像理解新体验 | 热门资讯 | HyperAI超神经