
摘要
在本文中,我们针对一项具有挑战性的任务——视频-语言分割(video-language segmentation)展开研究。给定一段视频和一句自然语言描述,其目标是在视频帧中准确分割出句子所描述的对象或主体。为了精确标识目标对象,通常需要结合多个属性信息,例如与之相邻的其他物体及其空间关系等。为此,本文提出了一种新颖的极坐标相对位置编码(Polar Relative Positional Encoding, PRPE)机制,该机制以“语言化”的方式表征空间关系,即通过方向和距离两个维度进行表达。通过该机制,句子特征能够更直接地与位置嵌入进行交互,从而有效提取隐含的相对位置关系。此外,我们设计了参数化函数来适应连续值方向与距离,使位置嵌入具备更强的表达能力。基于PRPE,我们进一步构建了极坐标注意力模块(Polar Attention Module, PAM),作为视觉-语言融合的基本单元。实验结果表明,我们的方法在具有挑战性的A2D Sentences数据集上,以mAP指标相比此前最优方法实现了11.4个百分点的绝对提升。同时,该方法在J-HMDB Sentences数据集上也取得了具有竞争力的性能表现。