12日前

因果補正注意力を用いた文脈バイアス付き視覚認識

{Thomas H. Li, Ge Li, Jingjia Huang, Ruyang Liu}
因果補正注意力を用いた文脈バイアス付き視覚認識
要約

視覚的注目(Visual attention)は、頑健な予測に必要な本質的な物体表現を常に捉えるわけではない。注目モジュールは、訓練中に有益であると判断される対象物体だけでなく、頻繁に共起する背景文脈(context)も強調しがちである。この問題の根本には、文脈が物体と予測の間で誤った因果関係を生じさせてしまう混同効果(confounding effect)がある。この問題は、視覚的注目によってさらに悪化する。本論文では、文脈バイアスに対して頑健な因果的物体特徴を学習するため、視覚認識に向けた新しい注目モジュール「介入的二重注目(Interventional Dual Attention: IDA)」を提案する。具体的には、複数のサンプリング介入を用いた二つの注目層を採用することで、混同要因である文脈による注目の歪みを補正する。本手法はモデルに依存しない(model-agnostic)ため、さまざまなバックボーンに容易に統合可能である。広範な実験により、計算量を抑えつつ分類および検出タスクにおいて顕著な性能向上を達成した。特に、MS-COCOおよびPASCAL-VOCにおけるマルチラベル分類において、現在の最先端(state-of-the-art)の結果を達成した。

因果補正注意力を用いた文脈バイアス付き視覚認識 | 最新論文 | HyperAI超神経