17日前

視覚質問応答におけるグリッド特徴量の正当化

Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen
視覚質問応答におけるグリッド特徴量の正当化
要約

「ボトムアップ型」注目(attention)として広く知られる、バウンディングボックス(または領域)に基づく視覚特徴は、視覚・言語タスク、特に視覚質問応答(VQA)において、従来のグリッドベースの畳み込み特徴を上回り、現在のデファクトスタンダードとして定着しつつある。しかし、領域特徴がもたらす利点(例えば、より優れた局所化性能)が、ボトムアップ型注目機構の成功の主な要因であるかどうかは、依然として明確でない。本研究では、VQAにおけるグリッド特徴の再評価に取り組み、それらが驚くほど良好に機能することを発見した。同じ精度を達成しつつ、処理速度が1桁以上高速化される(例えば、類似の方法で事前学習された場合)。広範な実験を通じて、この観察結果が異なるVQAモデル、異なるデータセットにわたり一貫して成り立ち、画像キャプションなど他のタスクにも良好に一般化されることを確認した。特に、グリッド特徴はモデル設計および学習プロセスを大幅に簡素化するため、エンドツーエンドでの学習が可能となり、より柔軟なネットワーク構造の採用も容易になる。本研究では、ピクセルから直接回答に至るエンドツーエンドのVQAモデルを学習し、事前学習段階で領域ラベルを一切使用せずに、高い性能を達成できることを示した。本研究の知見が、VQAに関する科学的理解の深化および実用的応用の向上に貢献することを期待する。コードおよび特徴量は公開予定である。

視覚質問応答におけるグリッド特徴量の正当化 | 最新論文 | HyperAI超神経