2ヶ月前
多タスク三ストリームネットワークを用いた密接な関係性を持つ画像キャプショニング
Dong-Jin Kim; Tae-Hyun Oh; Jinsoo Choi; In So Kweon

要約
私たちは、視覚シーン内のオブジェクト間の関係情報を基に複数のキャプションを生成することを目指す新しい画像キャプション作成タスク、dense relational captioning(密集関係キャプション作成)を紹介します。関係キャプション作成は、各オブジェクト組み合わせ間の関係について明確な説明を提供します。このフレームワークは、多様性と情報量の両面で優れており、オブジェクト間の関係に基づく包括的な画像理解(例えば、関係提案生成)につながります。オブジェクト間の関係理解において、品詞(POS;すなわち主語-目的語-述語カテゴリ)は、キャプション内の単語の因果的な順序を導くための貴重な事前情報となる可能性があります。私たちのフレームワークでは、単にキャプションを生成するだけでなく、各単語の品詞を理解することも学習させます。そのために、私たちは三つの再帰ユニットがそれぞれの品詞に対応するマルチタスク・トリプルストリームネットワーク(MTTSNet)を提案します。このネットワークは、正しいキャプションと各単語の品詞を同時予測することで訓練されます。さらに、私たちはオブジェクト埋め込みを明示的な関係モジュールで調整することでMTTSNetの性能が向上することを見出しました。大規模データセットといくつかの指標を使用した広範な実験分析を通じて、提案されたモデルがより多様で豊かなキャプションを生成できることを示しています。最後に、私たちのフレームワークが全体的な画像キャプション作成、シーングラフ生成、および検索タスクへの応用例を提示します。