17日前

適応型スプリットフェュージョントランスフォーマー

Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang Jiang
適応型スプリットフェュージョントランスフォーマー
要約

視覚的コンテンツ理解を目的としたニューラルネットワークは、近年、畳み込みニューラルネットワーク(CNN)からトランスフォーマーへと進化している。従来のCNNは、局所的な特徴を捉えるために小規模な窓サイズのカーネルに依存しており、優れた局所表現力を持つことが示されている。一方、トランスフォーマーは局所領域間の長距離グローバルな接続を構築することで、包括的な学習を実現する。この2つのアプローチの相補性に着目し、それぞれの技術の長所を最大限に活かすためのハイブリッドモデルの設計に注目が集まっている。しかし、現行のハイブリッドモデルは、畳み込みを単純な線形投影の近似に置き換える、あるいは畳み込みブランチとアテンションブランチを並列に配置するにとどまり、局所モデルとグローバルモデルの重要性を十分に考慮していない。この問題に対処するため、本研究では、畳み込みブランチとアテンションブランチに適応的な重みを付与して異なる処理を行う新たなハイブリッドモデル「Adaptive Split-Fusion Transformer(ASF-former)」を提案する。具体的には、ASF-formerのエンコーダーは特徴チャネルを均等に半分に分割し、二重パス入力を適応的に処理する。その後、二重パスの出力を、視覚的ヒントから計算された重みスカラにより融合する。また、効率性を考慮して畳み込みパスをコンパクトに設計している。ImageNet-1K、CIFAR-10、CIFAR-100といった標準ベンチマーク上で実施した広範な実験の結果、本モデルは、12.9G MACs/56.7Mパラメータ(大規模な事前学習を用いない条件)という同等の計算リソース下において、CNNおよびトランスフォーマーの各々のベースラインモデルや既存のハイブリッドモデルを上回る性能を達成し、ImageNet-1Kでは83.9%の精度を実現した。コードは以下のURLから公開されている:https://github.com/szx503045266/ASF-former。

適応型スプリットフェュージョントランスフォーマー | 最新論文 | HyperAI超神経