HyperAIHyperAI

Command Palette

Search for a command to run...

gSwin:シフト窓の階層構造を有するゲート付きMLP視覚モデル

Mocho Go Hideyuki Tachibana

概要

言語処理分野における成功を受けて、自己注意機構(Transformer)は近年、視覚分野にも導入され、著しい成果を上げている。また、別のアプローチとして、多層パーセプトロン(MLP)も視覚領域において検討が進められている。これらのアーキテクチャは従来のCNNとは異なり、近年注目を集め、多数の手法が提案されている。本研究では、パラメータ効率性と性能、さらに局所性と階層性を両立する観点から、Swin Transformerと(マルチヘッド)gMLPの二つのアプローチを統合したgSwinを提案する。実験の結果、画像分類、物体検出、セマンティックセグメンテーションという3つの視覚タスクにおいて、モデルサイズを小さく抑えつつも、Swin Transformerを上回る精度を達成できることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
gSwin:シフト窓の階層構造を有するゲート付きMLP視覚モデル | 記事 | HyperAI超神経