17日前

ConvMLP:視覚向け階層的畳み込みMLP

Jiachen Li, Ali Hassani, Steven Walton, Humphrey Shi
ConvMLP:視覚向け階層的畳み込みMLP
要約

MLPベースのアーキテクチャは、連続する多層パーセプトロン(MLP)ブロックのシーケンスから構成されるものであり、最近、畳み込みニューラルネットワーク(CNN)やTransformerベースの手法と同等の性能を達成することが明らかになった。しかし、大多数のアーキテクチャは固定次元の入力を扱う空間MLP(spatial MLP)を採用しており、これによりオブジェクト検出やセマンティックセグメンテーションといった下流タスクへの適用が困難となっている。さらに、単段階設計(single-stage design)は他のコンピュータビジョンタスクにおける性能を制限し、完全結合層(fully connected layers)は膨大な計算負荷を伴うという問題も存在する。これらの課題に対処するため、本研究では、畳み込み層とMLPを階層的かつ共同設計した軽量な段階的アーキテクチャ「ConvMLP(Hierarchical Convolutional MLP for Visual Recognition)」を提案する。特に、ConvMLP-SはImageNet-1kデータセットにおいて900万パラメータ、2.4G MACsでトップ1精度76.8%を達成し、MLP-Mixer-B/16と比較してそれぞれ15%および19%のパラメータ量と計算量に抑えることに成功した。オブジェクト検出およびセマンティックセグメンテーションにおける実験結果から、ConvMLPによって学習された視覚表現は、少ないパラメータ数でスムーズに転移可能であり、競争力のある性能を発揮することが示された。本研究のコードおよび事前学習済みモデルは、https://github.com/SHI-Labs/Convolutional-MLPs にて公開されている。

ConvMLP:視覚向け階層的畳み込みMLP | 最新論文 | HyperAI超神経