17日前
Twins:視覚Transformerにおける空間注意力の設計の再検討
Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen

要約
非常に最近、密度予測タスク向けの多様なビジョントランスフォーマー構造が提案されており、それらは空間的アテンションの設計がこれらのタスクにおける成功に極めて重要であることを示している。本研究では、空間的アテンションの設計を見直し、洗練されたがシンプルなアテンション機構が最先端の手法と比較しても優れた性能を発揮することを実証する。その結果、本研究ではTwins-PCPVTおよびTwins-SVTの2つのビジョントランスフォーマー構造を提案する。提案する構造は非常に効率的であり、実装も容易で、現代のディープラーニングフレームワークで高度に最適化された行列積のみを用いる。さらに重要なことに、これらの構造は画像分類をはじめとする幅広い視覚タスク、特に密度予測タスクである物体検出およびセグメンテーションにおいて優れた性能を達成している。そのシンプルさと高い性能から、本研究で提案する構造は多くの視覚タスクにおける強力なバックボーンとして利用可能であると考えられる。コードは https://github.com/Meituan-AutoML/Twins にて公開されている。