7日前

MogaNet:多階層ゲート付きアグリゲーションネットワーク

Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
MogaNet:多階層ゲート付きアグリゲーションネットワーク
要約

コンボリューショナルニューラルネットワーク(ConvNet)のカーネルを可能な限りグローバルな文脈に位置づけることで、現代のConvNetはコンピュータビジョンタスクにおいて大きな潜在能力を示している。しかし、深層ニューラルネットワーク(DNN)内における多階層ゲーム理論的相互作用に関する最近の進展は、現代のConvNetに存在する表現力のボトルネックを明らかにしている。すなわち、カーネルサイズの増大に伴い、表現力豊かな相互作用が効果的に符号化されていないことである。この課題に対処するため、我々は、純粋なConvNetベースモデルにおいて判別的視覚表現学習を実現する新しい現代型ConvNetの族、MogaNetを提案する。MogaNetは、良好な複雑性と性能のトレードオフを実現しており、概念的に単純かつ効果的な畳み込みとゲート付きアグリゲーションをコンパクトなモジュールに統合している。このモジュールにより、判別的特徴が効率的に集約され、適応的に文脈化される。MogaNetは優れたスケーラビリティと、パラメータ効率性を備えており、ImageNetおよびCOCOオブジェクト検出、ADE20Kセマンティックセグメンテーション、2D・3Dヒューマンポーズ推定、動画予測など、多様な下流ビジョンベンチマークにおいて、最先端のViTおよびConvNetと比較して競争力のある性能を発揮している。特に、ImageNet-1Kにおいて、520万パラメータで80.0%、18100万パラメータで87.8%の精度を達成し、ParC-NetおよびConvNeXt-Lを上回りながら、それぞれ59%のFLOPs削減と1700万パラメータの削減を実現した。ソースコードは、https://github.com/Westlake-AI/MogaNet にて公開されている。

MogaNet:多階層ゲート付きアグリゲーションネットワーク | 最新論文 | HyperAI超神経