17日前

視覚的共通認識 R-CNN

Tan Wang, Jianqiang Huang, Hanwang Zhang, Qianru Sun
視覚的共通認識 R-CNN
要約

本稿では、画像キャプション生成やVQA(視覚的質問応答)などの高レベルなタスクに向けた、より優れた視覚領域エンコーダとして機能する新たな非教師付き特徴表現学習手法、Visual Commonsense Region-based Convolutional Neural Network(VC R-CNN)を提案する。画像内の検出された物体領域群(例えばFaster R-CNNを用いて得られるもの)を入力として、VC R-CNNの代理学習目的は、ある領域の文脈的対象(contextual objects)を予測することである。これは、word2vecなどの他の非教師付き特徴学習手法と類似しているが、根本的な差異がある。VC R-CNNは、従来の尤度に基づく予測 P(Y|X) ではなく、因果的介入(causal intervention)に基づく予測 P(Y|do(X)) を用いる点が特徴である。この差異が、VC R-CNNが「椅子は座れる」といった意味理解(sense-making)に関する知識を学習可能にしている理由であり、単に「テーブルが存在するとき椅子もよく見られる」といった単なる共起関係(common co-occurrence)にとどまらない。本手法の特徴量は、画像キャプション生成、VQA、VCRという3つの代表的なタスクにおいて、広範にわたり既存モデルに統合され、いずれのタスクでも一貫した性能向上が確認され、多数の新しいSOTA(状態の最良)を達成した。コードおよび特徴量は、https://github.com/Wangt-CN/VC-R-CNN にて公開されている。