2ヶ月前
視覚質問応答におけるハードアテンションのブートストラッピングによる学習
Mateusz Malinowski; Carl Doersch; Adam Santoro; Peter Battaglia

要約
生物学的な知覚における注意メカニズムは、すべての感覚入力に対して行うことが非現実的な高度な処理のために、知覚情報の部分集合を選択すると考えられています。しかし、コンピュータビジョンにおいては、情報が再重み付けされ集約されるが決して除外されないソフトアテンションの成功にもかかわらず、一部の情報を選択的に無視するハードアテンションに関する研究は比較的少ないです。本稿では、新しいハードアテンション手法を提案し、最近公開された視覚質問応答データセットでの非常に競争力のある性能を達成することを見出しました。この手法は、類似したソフトアテンションアーキテクチャと同等か、場合によってはそれ以上の性能を発揮しながら、ある特徴を完全に無視します。ハードアテンションメカニズムは非微分可能であると考えられてきましたが、我々は特徴量の大きさが意味論的関連性と相関しており、メカニズムの注意選択基準に有用な信号を提供することを見いだしました。ハードアテンションが入力情報の重要な特徴を選択するため、類似するソフトアテンションメカニズムよりも効率的である可能性があります。これは特に、計算コストとメモリコストが特徴集合のサイズの二次関数となる非局所的な対称操作を使用する最近の手法にとって重要です。