BossNAS:ブロック単位の自己教師付きニューラルアーキテクチャ探索を用いたハイブリッドCNN-Transformerの探索

視覚認識向けに手作業で設計されたニューラルアーキテクチャにおける近年の多数の革新は、多様な構成要素を組み合わせたハイブリッドアーキテクチャの探索の緊急性を浮き彫りにしている。一方で、人間の作業負荷を軽減することを期待して、ニューラルアーキテクチャ探索(NAS)手法の発展が著しく進んでいる。しかし、CNNやトランスフォーマーなど性質の異なる候補を含む多様な探索空間を、効率的かつ効果的に処理できるかどうかは、依然として未解決の問題である。本研究では、従来の手法における大きな重み共有空間および偏った教師信号によるアーキテクチャ評価の不正確さという課題に応えるために、ブロック単位で自己教師学習を行うニューラルアーキテクチャ探索手法「Block-wisely Self-supervised Neural Architecture Search(BossNAS)」を提案する。具体的には、探索空間をブロックに分解し、各ブロックを個別に学習するための新規な自己教師学習スキーム「エンサンブルブートストラップ」を導入することで、全体として集団の中心に向かって探索を行う。さらに、可変ダウンサンプリング位置を探索可能な「織物構造」を模したハイブリッドCNN-Transformer探索空間「HyTra」を提案する。この挑戦的な探索空間において、我々が探索したモデル「BossNet-T」はImageNetで最大82.5%の精度を達成し、同等の計算時間でEfficientNetを2.4%上回った。また、ImageNetを用いた標準的なMBConv探索空間およびCIFAR-100を用いたNATS-Benchサイズ探索空間において、それぞれ0.78および0.76というSpearman相関係数を達成し、最先端のNAS手法を上回る優れたアーキテクチャ評価精度を示した。コードは以下のURLから公開されている:https://github.com/changlin31/BossNAS