HyperAIHyperAI

Command Palette

Search for a command to run...

視覚的共通認識 R-CNN

Tan Wang Jianqiang Huang Hanwang Zhang Qianru Sun

概要

本稿では、画像キャプション生成やVQA(視覚的質問応答)などの高レベルなタスクに向けた、より優れた視覚領域エンコーダとして機能する新たな非教師付き特徴表現学習手法、Visual Commonsense Region-based Convolutional Neural Network(VC R-CNN)を提案する。画像内の検出された物体領域群(例えばFaster R-CNNを用いて得られるもの)を入力として、VC R-CNNの代理学習目的は、ある領域の文脈的対象(contextual objects)を予測することである。これは、word2vecなどの他の非教師付き特徴学習手法と類似しているが、根本的な差異がある。VC R-CNNは、従来の尤度に基づく予測 P(Y|X) ではなく、因果的介入(causal intervention)に基づく予測 P(Y|do(X)) を用いる点が特徴である。この差異が、VC R-CNNが「椅子は座れる」といった意味理解(sense-making)に関する知識を学習可能にしている理由であり、単に「テーブルが存在するとき椅子もよく見られる」といった単なる共起関係(common co-occurrence)にとどまらない。本手法の特徴量は、画像キャプション生成、VQA、VCRという3つの代表的なタスクにおいて、広範にわたり既存モデルに統合され、いずれのタスクでも一貫した性能向上が確認され、多数の新しいSOTA(状態の最良)を達成した。コードおよび特徴量は、https://github.com/Wangt-CN/VC-R-CNN にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚的共通認識 R-CNN | 記事 | HyperAI超神経