17日前

視覚と言語の連携をローカライズされた物語で実現する

Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari

要約

我们提案了一種名为「局所的ナラティブ（Localized Narratives）」の新しいマルチモーダル画像アノテーション形式であり、視覚と言語を結びつけるものである。アノテーターに画像を説明する際、その説明を音声で行いながら、説明対象の領域にマウスカーソルを同時にホバーさせるように依頼する。音声とマウスカーソルの動きが同期しているため、説明文のすべての単語を視覚的に局所化（localize）することが可能となる。この高密度な視覚的接地（visual grounding）は、各単語ごとにマウスの移動軌跡（trace segment）として表現され、本データセットに特有の特徴である。我々は、COCO、Flickr30k、ADE20Kの全データセットおよびOpen Imagesの671,000枚の画像を、合計849,000枚の画像に対して局所的ナラティブでアノテーションした。これらのデータはすべて公開する。また、これらのアノテーションが多様性に富み、正確であり、効率的に生成可能であることを広範な分析を通じて示した。さらに、制御された画像キャプション（controlled image captioning）という応用タスクにおいて、その有効性も実証した。