Command Palette
Search for a command to run...
Georgios Pantazopoulos Eda B. Özyiğit

摘要
视觉定位(Visual grounding)是指模型识别视觉输入中与文本描述相匹配区域的能力。因此,具备视觉定位能力的模型可广泛应用于多个领域,涵盖指代表达理解、针对图像或视频中细粒度细节的问题回答、通过显式引用实体来生成视觉上下文描述,以及在模拟环境和真实环境中实现低层级与高层级的控制任务。在本文综述中,我们系统回顾了现代通用视觉语言模型(VLMs)研究关键领域中的代表性工作。首先,我们阐述了视觉定位在VLMs中的重要性;随后,梳理了当前构建具身模型的核心构成要素,探讨其在实际应用中的表现,包括用于评估具身多模态生成的基准数据集与评价指标;进一步,我们分析了视觉定位、多模态思维链(multimodal chain-of-thought)以及VLMs中推理能力之间的多重内在关联。最后,我们剖析了视觉定位所面临的核心挑战,并提出了未来研究具有前景的发展方向。