
要約
フレージングラウンディングタスクは、画像のキャプションに記載された各エンティティをその画像内の対応する領域に接地することを目指しています。同じキャプション内の異なるメンションがどのように接地されるべきかには明確な依存関係がありますが、このような依存関係を捉えるために設計された従来の構造化予測手法では、近似推論や非微分可能な損失関数を使用せざるを得ませんでした。本論文では、フレージングラウンディングをシーケンスラベリングタスクとして定式化し、候補領域を潜在的なラベルとして扱い、神経連鎖条件随伴場(Neural Chain Conditional Random Fields: CRFs)を使用して隣接するメンション間の領域の依存関係をモデル化します。標準的なシーケンスラベリングタスクとは異なり、フレージングラウンディングタスクでは複数の正解候補領域が存在する可能性があります。この正解ラベルの多重性に対処するために、我々は「ソフトラベル連鎖CRFs」を定義し、端から端まで便利に学習できるアルゴリズムを提示します。我々の方法は、Flickr30k Entitiesデータセットにおけるフレージングラウンディングにおいて新しい最先端の成果を達成しました。分析によると、我々のモデルはCRFによって捉えられたエンティティ間の依存関係とソフトラベル訓練体制の両方から恩恵を受けていることが示されています。我々のコードは\url{github.com/liujch1998/SoftLabelCCRF}で入手可能です。