8ヶ月前

概要

画像内のオブジェクトを視覚的なコンテキストに配置する動的な木構造の作成を提案します。これにより、シーングラフ生成や視覚的Q&Aなどの視覚的推論タスクが支援されます。当社の視覚的コンテキストツリーモデル（VCTree）は、既存の構造化されたオブジェクト表現であるチェーンや完全連結グラフと比較して、以下の2つの主要な利点があります。効率的で表現力豊かな二分木は、オブジェクト間の固有の並列/階層的な関係を符号化します。たとえば、「服」（clothes）と「パンツ」（pants）は通常共起し、「人」（person）に属します。動的な構造は画像ごと、タスクごとに変化し、オブジェクト間でのよりコンテンツ/タスク特異的なメッセージ伝達を可能にします。VCTreeを構築するために、各オブジェクトペア間のタスク依存的な妥当性を計算するスコア関数を設計しました。このスコア行列から最大全域木の二分版が得られ、それが木構造となります。次に、双方向TreeLSTMによって視覚的コンテキストが符号化され、タスク特異的なモデルによってデコードされます。私たちはエンドタスク監督学習と木構造強化学習を統合したハイブリッド学習手順を開発しました。ここで、前者の評価結果は後者の構造探索における自己批評として機能します。2つのベンチマーク（Visual Genomeのシーングラフ生成とVQA2.0の視覚的Q&A）において行われた実験結果は、VCTreeが最先端の結果を超えるだけでなく、解釈可能な視覚的コンテキスト構造を見つけることを示しています。

ソースPDF