8ヶ月前

概要

最近開発された視覚変換器（Vision Transformer: ViT）は、畳み込みニューラルネットワーク（CNN）と比較して、画像分類において有望な成果を達成している。この成果に触発され、本論文では、Transformerモデルにおけるマルチスケール特徴表現の学習方法について検討する。その目的の下、異なるサイズの画像パッチ（すなわちTransformerにおけるトークン）を組み合わせてより強力な画像特徴を生成するため、二重ブランチ構造のTransformerを提案する。本手法では、計算複雑度の異なる二つの独立したブランチを用いて小パッチと大パッチのトークンを処理し、それらを複数回にわたり純粋にアテンションによって融合することで、互いに補完し合うようにする。さらに、計算量を削減するために、クロスアテンションに基づくシンプルかつ効果的なトークン融合モジュールを設計した。このモジュールは、各ブランチから1つのトークンをクエリとして用い、他のブランチと情報交換を行う。本手法で用いるクロスアテンションは、計算量およびメモリ使用量の両面で、従来の二次時間（quadratic time）ではなく、線形時間（linear time）で処理可能である。広範な実験により、本手法は、他の同時期に発表された視覚変換器の手法および効率的なCNNモデルと比較して、同等またはそれ以上の性能を発揮することが示された。例えば、ImageNet1Kデータセットにおいて、一部のアーキテクチャの変更を加えた場合、FLOPsおよびモデルパラメータの増加はわずかまたは中程度であるにもかかわらず、最近のDeiTを2%以上の大幅な差で上回った。本研究のソースコードおよびモデルは、\url{https://github.com/IBM/CrossViT} にて公開されている。

ソースPDF