
摘要
短语定位任务旨在将给定图像标题中的每个实体提及与其在该图像中对应的区域进行关联。尽管同一标题中的不同提及之间存在明显的依赖关系,但以往旨在捕捉这些依赖关系的结构预测方法需要依赖近似推理或非可微损失函数。本文将短语定位任务建模为序列标注任务,其中候选区域被视为潜在标签,并使用神经链条件随机场(Neural Chain Conditional Random Fields, CRFs)来建模相邻提及之间的区域依赖关系。与标准的序列标注任务不同,短语定位任务定义为可能存在多个正确的候选区域。为了应对这种多金标问题,我们定义了所谓的软标签链条件随机场(Soft-Label Chain CRFs),并提出了一种算法,实现了方便的端到端训练。我们的方法在Flickr30k Entities数据集上的短语定位任务中建立了新的最先进水平。分析表明,我们的模型既受益于CRF捕获的实体依赖关系,也受益于软标签训练机制。我们的代码可在\url{github.com/liujch1998/SoftLabelCCRF}获取。