2ヶ月前
コンテキストと属性に基づく密集キャプショニング
Guojun Yin; Lu Sheng; Bin Liu; Nenghai Yu; Xiaogang Wang; Jing Shao

要約
密集キャプショニングは、セマンティック領域を同時に局所化し、これらの関心領域(ROI)を自然言語で短いフレーズや文章で説明することを目指しています。これまでの研究では著しい進展が見られましたが、しばしばアパチャー問題に脆弱であり、入力画像内の周辺コンテキストとの文脈的一貫性が欠けていることが指摘されています。本研究では、近隣コンテンツから対象ROIへ多尺度メッセージ伝播に基づく文脈推論を調査します。この目的のために、1) 文脈視覚マイニングモジュールと 2) 多レベル属性基盤説明生成モジュールから構成される新しいエンドツーエンドの文脈および属性基盤密集キャプショニングフレームワークを設計しました。キャプションがしばしば言語的属性(誰、何、どこなど)と共起することが知られているため、階層的な言語的属性からの補助的な監督を組み込み、学習されたキャプションの独自性を強化しています。Visual Genomeデータセットにおける広範な実験とアブレーションスタディにより、提案モデルが最先端手法に比して優れていることが示されました。