
要約
言語処理分野における成功を受けて、自己注意機構(Transformer)は近年、視覚分野にも導入され、著しい成果を上げている。また、別のアプローチとして、多層パーセプトロン(MLP)も視覚領域において検討が進められている。これらのアーキテクチャは従来のCNNとは異なり、近年注目を集め、多数の手法が提案されている。本研究では、パラメータ効率性と性能、さらに局所性と階層性を両立する観点から、Swin Transformerと(マルチヘッド)gMLPの二つのアプローチを統合したgSwinを提案する。実験の結果、画像分類、物体検出、セマンティックセグメンテーションという3つの視覚タスクにおいて、モデルサイズを小さく抑えつつも、Swin Transformerを上回る精度を達成できることを示した。