Command Palette
Search for a command to run...
UniNet:畳み込み、Transformer、MLPを統合した統一アーキテクチャ探索
UniNet:畳み込み、Transformer、MLPを統合した統一アーキテクチャ探索
Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu
概要
近年、トランスフォーマーおよび多層パーセプトロン(MLP)アーキテクチャは、さまざまな視覚タスクにおいて顕著な成果を上げている。しかし、これらの演算子を効果的に組み合わせて高性能なハイブリッド視覚アーキテクチャを構築する方法については、依然として大きな課題が残っている。本研究では、畳み込み演算子、トランスフォーマー、MLPの学習可能な組み合わせに着目し、新たな統一的アーキテクチャ探索手法を提案する。本手法は、高性能ネットワークの探索を実現するための2つの重要な設計を含む。第一に、性質が大きく異なる探索可能な演算子を統一的な形で表現することで、同じ設定パラメータセットで各演算子を特徴づけることを可能にした。これにより、全体の探索空間のサイズが大幅に削減され、探索コストが実用的な範囲に収まるようになった。第二に、異なる種類の演算子間のギャップを緩和するため、コンテキストに応じたダウンサンプリングモジュール(DSM)を提案した。本研究で提案するDSMは、異なるタイプの演算子から得られる特徴をより適切に統合・適応できるため、高性能なハイブリッドアーキテクチャの特定に重要である。最終的に、設定可能な演算子とDSMを統一的な探索空間に統合し、強化学習に基づく探索アルゴリズムを用いて、演算子の最適な組み合わせを包括的に探索した。その結果、ベースラインネットワークを探索し、スケーリングすることで、UniNetsと名付けられたモデル群を構築した。これらのモデルは、従来のConvNetやTransformerと比較して、大幅に高い精度と効率を達成した。特に、UniNet-B5はImageNet上でトップ1精度84.9%を達成し、EfficientNet-B7およびBoTNet-T7と比較してそれぞれ44%および55%少ないFLOPsで優れた性能を発揮した。また、ImageNet-21Kでの事前学習を経由したUniNet-B6は、87.4%の精度を達成し、Swin-Lと比較して51%少ないFLOPsと41%少ないパラメータ数で上回った。コードはGitHubで公開されている:https://github.com/Sense-X/UniNet。