2ヶ月前

視覚トランスフォーマーの相関構造の学習

Kim, Manjin ; Seo, Paul Hongsuck ; Schmid, Cordelia ; Cho, Minsu
視覚トランスフォーマーの相関構造の学習
要約

新しい注意機構である構造的自己注意(StructSA)を導入します。この機構は、注意のキーフェーズとクエリフェーズの相互作用から自然に現れる豊富な相関パターンを活用します。StructSAは、畳み込みを通じてキーフェーズとクエリフェーズの空間時間的な構造を認識し、その結果得られる注意マップを使用して値特徴量の局所コンテキストを動的に集約します。これにより、画像やビデオにおけるシーンレイアウト、物体の動き、物体間の関係などの豊富な構造的パターンが効果的に活用されます。StructSAを主要な構成要素として使用し、構造的ビジョントランスフォーマー(StructViT)を開発しました。画像分類およびビデオ分類タスクにおいてその有効性を評価した結果、ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48、FineGymで最先端の成果を得ました。