视觉定位 | SOTA | HyperAI超神经

视觉定位（Visual Grounding, VG）旨在基于自然语言查询在图像中定位最相关的对象或区域。该任务的核心挑战包括：识别查询中的主要关注点、理解图像内容以及精确定位目标对象。视觉定位不仅提升了人机交互的自然性和准确性，还在图像标注、内容检索和场景理解等领域具有重要应用价值。

RefCOCO+ test B