7ヶ月前

概要

本論文では、自然言語オブジェクト検索のタスクに取り組みます。これは、画像内の対象オブジェクトを自然言語クエリに基づいて局所化するためのものです。自然言語オブジェクト検索は、テキストベースの画像検索タスクとは異なり、シーン内のオブジェクトに関する空間情報と全体的なシーンコンテキストを含むためです。この問題に対処するために、我々は新しい空間コンテキスト再帰型畳み込みニューラルネットワーク（Spatial Context Recurrent ConvNet: SCRC）モデルを提案します。このモデルは、候補ボックスに対するスコアリング関数として使用され、空間構成と全体的なシーンレベルのコンテキスト情報をネットワークに統合します。我々のモデルは、クエリテキスト、局所画像記述子、空間構成および全体的なコンテキスト特徴を再帰型ネットワークを通じて処理し、各候補ボックスがクエリテキストに条件付けられた確率を出力します。これにより、ボックスのスコアが決定されます。また、本モデルは画像キャプショニング領域から視覚-言語知識を転移させることが可能です。実験結果は、我々の手法が局所情報と全体情報双方を効果的に利用しており、異なるデータセットやシナリオにおいて従来の基準手法を大幅に上回っていることを示しています。さらに、大規模な視覚と言語データセットを利用して知識転移を行うことができます。

ソースPDF