7日前

gSwin：シフト窓の階層構造を有するゲート付きMLP視覚モデル

Mocho Go, Hideyuki Tachibana

要約

言語処理分野における成功を受けて、自己注意機構（Transformer）は近年、視覚分野にも導入され、著しい成果を上げている。また、別のアプローチとして、多層パーセプトロン（MLP）も視覚領域において検討が進められている。これらのアーキテクチャは従来のCNNとは異なり、近年注目を集め、多数の手法が提案されている。本研究では、パラメータ効率性と性能、さらに局所性と階層性を両立する観点から、Swin Transformerと（マルチヘッド）gMLPの二つのアプローチを統合したgSwinを提案する。実験の結果、画像分類、物体検出、セマンティックセグメンテーションという3つの視覚タスクにおいて、モデルサイズを小さく抑えつつも、Swin Transformerを上回る精度を達成できることを示した。