2ヶ月前
Flickr30k Entities: 豊富な画像から文へのモデルのための領域とフレーズの対応関係の収集
Bryan A. Plummer; Liwei Wang; Chris M. Cervantes; Juan C. Caicedo; Julia Hockenmaier; Svetlana Lazebnik

要約
Flickr30kデータセットは、文章ベースの画像説明の標準的なベンチマークとなっています。本論文では、Flickr30kの15万8千のキャプションを24万4千の共参照チェーンで拡張したFlickr30k Entitiesを紹介します。これらの共参照チェーンは、同じ画像に対する異なるキャプションに登場する同一エンティティの言及を結びつけ、27万6千の手動アノテーションされたバウンディングボックスと関連付けます。このようなアノテーションは、自動画像説明と根拠のある言語理解における継続的な進歩にとって不可欠です。それらにより、画像内の文章エンティティ言及の位置特定という新しいベンチマークを定義することが可能となります。本論文では、このタスクに対する強力なベースラインを提示します。そのベースラインは、画像-文章埋め込み、一般的な物体検出器、色分類器、および大きな物体を選択するバイアスを組み合わせています。当該ベースラインは精度においてより複雑な最先端モデルと匹敵しますが、その利点が画像-文章検索などのタスクでの改善に容易に転換されないことを示しています。これにより、現在の手法の限界とさらなる研究の必要性が強調されます。