17日前
視覚と言語の連携をローカライズされた物語で実現する
Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari

要約
我们提案了一種名为「局所的ナラティブ(Localized Narratives)」の新しいマルチモーダル画像アノテーション形式であり、視覚と言語を結びつけるものである。アノテーターに画像を説明する際、その説明を音声で行いながら、説明対象の領域にマウスカーソルを同時にホバーさせるように依頼する。音声とマウスカーソルの動きが同期しているため、説明文のすべての単語を視覚的に局所化(localize)することが可能となる。この高密度な視覚的接地(visual grounding)は、各単語ごとにマウスの移動軌跡(trace segment)として表現され、本データセットに特有の特徴である。我々は、COCO、Flickr30k、ADE20Kの全データセットおよびOpen Imagesの671,000枚の画像を、合計849,000枚の画像に対して局所的ナラティブでアノテーションした。これらのデータはすべて公開する。また、これらのアノテーションが多様性に富み、正確であり、効率的に生成可能であることを広範な分析を通じて示した。さらに、制御された画像キャプション(controlled image captioning)という応用タスクにおいて、その有効性も実証した。