17日前

SAG-ViT:視覚変換器におけるグラフ注意機構を用いたスケール感知型高忠実度パッチング手法

Shravan Venkatraman, Jaskaran Singh Walia, Joe Dhanith P R
SAG-ViT:視覚変換器におけるグラフ注意機構を用いたスケール感知型高忠実度パッチング手法
要約

ビジョントランスフォーマー(ViTs)は、自己注意(self-attention)機構を活用することで、画像パッチ間の複雑なパターンおよび長距離依存関係を捉えることに成功し、画像分類の分野を再定義してきました。しかし、ViTsの主要な課題の一つは、畳み込みニューラルネットワーク(CNN)が階層構造によって自然に備える多スケール特徴表現を効率的に統合できるかどうかにあります。グラフトランスフォーマーは、グラフベースのモデリングを用いることでこの課題に対して進展を遂げていますが、冗長または関連性の低い領域が画像の文脈的表現を希薄化するため、特に空間階層構造の表現が損なわれたり、不十分になる傾向があります。このギャップを埋めるために、本研究では多スケール特徴表現の能力をCNNに由来するものとし、ViTの表現力とグラフ注目(graph-attended patching)によるより豊かな文脈表現を統合した「スケール認識型グラフ注意ビジョントランスフォーマー(Scale-Aware Graph Attention ViT:SAG-ViT)」を提案します。本モデルではEfficientNetV2をバックボーンとして用い、入力画像を直接パッチ化するのではなく、多スケール特徴マップを抽出し、それらをパッチ化することで、より豊かな意味情報の保持を実現しています。これらのパッチは空間的および特徴的類似性に基づいてグラフ構造に統合され、グラフ注意ネットワーク(GAT)によってノード埋め込みが精緻化されます。その後、精緻化されたグラフ表現はトランスフォーマー・エンコーダによって処理され、長距離依存関係および複雑な相互作用を捉えます。SAG-ViTは、複数のドメインにまたがるベンチマークデータセット上で評価され、画像分類タスクにおける有効性が検証されました。本研究のコードおよび学習済み重みは、https://github.com/shravan-18/SAG-ViT にて公開されています。

SAG-ViT:視覚変換器におけるグラフ注意機構を用いたスケール感知型高忠実度パッチング手法 | 最新論文 | HyperAI超神経