18日前
XCiT:クロス共分散イメージトランスフォーマー
Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou

要約
自然言語処理分野での成功を受けて、トランスフォーマーは近年、コンピュータビジョン分野においても大きな可能性を示している。トランスフォーマーの基盤となる自己注意(self-attention)機構は、すべてのトークン(単語または画像パッチ)間におけるグローバルな相互作用を実現し、畳み込み演算に限界のある局所的な相互作用を越えた、柔軟な画像データモデリングを可能にする。しかしながら、この柔軟性は時間およびメモリ上の二次時間計算量を伴い、長さの長いシーケンスや高解像度画像への応用を阻害する要因となっている。本研究では、トークンではなく特徴チャネルを対象として作用する「転置(transposed)」型の自己注意機構を提案する。この機構では、キーとクエリ間のクロス共分散行列(cross-covariance matrix)に基づいた相互作用を定義する。その結果得られるクロス共分散注意(XCA: Cross-Covariance Attention)は、トークン数に対して線形の計算量を有し、高解像度画像の効率的処理を可能にする。本研究では、このXCAを基盤とするクロス共分散画像トランスフォーマー(XCiT: Cross-Covariance Image Transformer)を構築した。XCiTは従来のトランスフォーマーの高精度性と畳み込み型アーキテクチャのスケーラビリティを両立している。複数の視覚ベンチマークにおいて、ImageNet-1kにおける画像分類および自己教師付き特徴学習、COCOにおける物体検出およびインスタンスセグメンテーション、ADE20kにおけるセマンティックセグメンテーションなど、広範なタスクで優れた性能を達成し、XCiTの有効性と汎用性を実証した。