17日前

視覚変換器におけるガウス型アテンションバイアスの有効受容 field を用いた理解

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Sang Woo Kim
視覚変換器におけるガウス型アテンションバイアスの有効受容 field を用いた理解
要約

視覚変換器(Vision Transformers: ViTs)は、画像を分割されたパッチの系列としてモデル化することで、多様な視覚タスクにおいて顕著な性能を示している。しかし、パッチに分割することで画像の構造が失われてしまうため、パッチの順序を反映させるために、ViTsは位置埋め込み(positional embedding)と呼ばれる明示的な構成要素を用いている。本研究では、位置埋め込みの使用が単にViTに順序認識能力を保証するものではないと主張する。この主張を裏付けるために、有効受容野(effective receptive field)を用いてViTsの実際の挙動を分析した。その結果、学習過程において、ViTは位置埋め込みが特定のパターンに学習されることにより、パッチの順序に関する理解を獲得していることが明らかになった。この観察に基づき、我々は訓練の初期段階から位置埋め込みが対応するパターンを持つよう導くために、ガウシアン注意バイアス(Gaussian attention bias)を明示的に追加する手法を提案する。このガウシアン注意バイアスの影響を、画像分類、物体検出、セマンティックセグメンテーションの複数の実験において評価した。その結果、提案手法はViTが画像をより正確に理解する能力を向上させるとともに、ImageNet、COCO 2017、ADE20Kを含むさまざまなデータセットにおいて、性能の向上を実現したことが示された。

視覚変換器におけるガウス型アテンションバイアスの有効受容 field を用いた理解 | 最新論文 | HyperAI超神経