
ダウンサンプリング層(プーリングやストライド付き畳み込みを含む)は、畳み込みニューラルネットワーク(CNN)アーキテクチャにおける重要な構成要素であり、画像特徴の解析粒度/スケール、および各層の受容 field(受容野)サイズを決定する上で重要な役割を果たす。この問題を完全に理解するため、ResNet20ネットワークを用いてCIFAR10データセット上で、各プーリング構成で独立に訓練されたモデルの性能を分析した。その結果、ダウンサンプリング層の配置がネットワークの性能に大きく影響すること、および事前に定義されたダウンサンプリング構成が最適ではないことが示された。ネットワークアーキテクチャ探索(NAS)を用いて、ダウンサンプリング構成をハイパーパラメータとして最適化する手法が考えられるが、我々は、単一のSuperNetに依存する一般的なワンショットNASでは、この問題に対して効果が薄いことを発見した。その理由として、最適なプーリング構成を探索するために訓練されるSuperNetは、すべてのプーリング構成間でパラメータを完全に共有してしまうため、訓練が困難になると考えられる。なぜなら、ある構成の学習が他の構成の性能を損なう可能性があるからである。そこで、本研究では、複数のSuperNetをバランスよく組み合わせるアプローチを提案する。このアプローチは、プーリング構成を異なる重みモデルに自動的に割り当てることで、SuperNet内における重み共有と、各プーリング構成間の相互干渉を低減する。提案手法はCIFAR10、CIFAR100、およびFood101の3つのデータセットで評価された結果、いずれのケースにおいても、他の手法を上回る性能を示し、従来のプーリング構成よりも顕著な改善が得られた。