7日前

gSwin:シフト窓の階層構造を有するゲート付きMLP視覚モデル

Mocho Go, Hideyuki Tachibana
gSwin:シフト窓の階層構造を有するゲート付きMLP視覚モデル
要約

言語処理分野における成功を受けて、自己注意機構(Transformer)は近年、視覚分野にも導入され、著しい成果を上げている。また、別のアプローチとして、多層パーセプトロン(MLP)も視覚領域において検討が進められている。これらのアーキテクチャは従来のCNNとは異なり、近年注目を集め、多数の手法が提案されている。本研究では、パラメータ効率性と性能、さらに局所性と階層性を両立する観点から、Swin Transformerと(マルチヘッド)gMLPの二つのアプローチを統合したgSwinを提案する。実験の結果、画像分類、物体検出、セマンティックセグメンテーションという3つの視覚タスクにおいて、モデルサイズを小さく抑えつつも、Swin Transformerを上回る精度を達成できることを示した。

gSwin:シフト窓の階層構造を有するゲート付きMLP視覚モデル | 最新論文 | HyperAI超神経