13 天前

多模态指代分割:一项综述

Henghui Ding, Song Tang, Shuting He, Chang Liu, Zuxuan Wu, Yu-Gang Jiang
多模态指代分割:一项综述
摘要

多模态指代分割旨在根据文本或音频形式的指代表达,在视觉场景(如图像、视频和三维场景)中分割出目标物体。该任务在需要基于用户指令实现精准物体感知的实际应用中发挥着关键作用。过去十年间,随着卷积神经网络、Transformer模型以及大语言模型的发展,多模态感知能力得到显著提升,推动了该领域在多模态研究社区中获得广泛关注。本文对多模态指代分割进行了全面综述。我们首先介绍该领域的研究背景,包括问题定义及常用数据集。随后,提出一种统一的元架构用于指代分割,并系统回顾了在图像、视频和三维场景三类主要视觉场景中的代表性方法。此外,我们进一步探讨了广义指代表达(Generalized Referring Expression, GREx)方法,以应对现实世界中复杂的挑战,同时介绍相关任务与实际应用场景。文中还提供了在标准基准上的大量性能对比实验。我们持续跟踪该领域相关研究进展,详见:https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation。