17日前

視覚的共通認識 R-CNN

Tan Wang, Jianqiang Huang, Hanwang Zhang, Qianru Sun

要約

本稿では、画像キャプション生成やVQA（視覚的質問応答）などの高レベルなタスクに向けた、より優れた視覚領域エンコーダとして機能する新たな非教師付き特徴表現学習手法、Visual Commonsense Region-based Convolutional Neural Network（VC R-CNN）を提案する。画像内の検出された物体領域群（例えばFaster R-CNNを用いて得られるもの）を入力として、VC R-CNNの代理学習目的は、ある領域の文脈的対象（contextual objects）を予測することである。これは、word2vecなどの他の非教師付き特徴学習手法と類似しているが、根本的な差異がある。VC R-CNNは、従来の尤度に基づく予測 P(Y|X) ではなく、因果的介入（causal intervention）に基づく予測 P(Y|do(X)) を用いる点が特徴である。この差異が、VC R-CNNが「椅子は座れる」といった意味理解（sense-making）に関する知識を学習可能にしている理由であり、単に「テーブルが存在するとき椅子もよく見られる」といった単なる共起関係（common co-occurrence）にとどまらない。本手法の特徴量は、画像キャプション生成、VQA、VCRという3つの代表的なタスクにおいて、広範にわたり既存モデルに統合され、いずれのタスクでも一貫した性能向上が確認され、多数の新しいSOTA（状態の最良）を達成した。コードおよび特徴量は、https://github.com/Wangt-CN/VC-R-CNN にて公開されている。