9日前

MUXConv：畳み込みニューラルネットワークにおける情報マルチプレクシング

Zhichao Lu, Kalyanmoy Deb, Vishnu Naresh Boddeti

要約

近年、畳み込みニューラルネットワーク（CNN）は計算効率において顕著な進展を遂げている。その主な要因の一つは、標準的な畳み込み層に代わって、$1\times1$畳み込みと深さ方向分離畳み込み（depth-wise separable convolution）を組み合わせることで、モデルの表現力と効率のトレードオフを実現するというアプローチである。しかし、この効率化の代償として、ネットワーク内の空間的・チャネル的領域間での情報伝達が非最適な状態になるという課題が生じている。この制約を克服するために、本研究では「MUXConv」と呼ばれる新しい層を提案する。MUXConvは、ネットワーク内でチャネル情報と空間情報を段階的に多重化（multiplexing）することで、情報の流れを強化しつつ、計算複雑性の増加を抑える設計となっている。さらに、MUXConvの有効性を実証するため、効率的な多目的進化的アルゴリズム（multi-objective evolutionary algorithm）を用いて、精度、モデルのコンパクト性、計算効率の同時最適化を実現するハイパーパラメータ探索フレームワークを構築した。ImageNetデータセットにおいて、このアプローチで得られたモデル（通称「MUXNet」）は、MobileNetV3と同等の性能（トップ1正解率75.3%）と乗算加算演算量（218M）を達成しつつ、モデルサイズは1.6倍小さく、すべての評価基準において他のモバイル向けモデルを上回った。また、転移学習や物体検出タスクへの適応においても、優れた性能を発揮した。ChestX-Ray 14ベンチマークでは、最先端のモデルと同等の精度を達成しながら、モデルサイズは3.3倍小さく、計算効率は14倍向上した。PASCAL VOC 2007における物体検出では、MobileNetV2と比較して、精度が1.2%向上、処理速度が28%高速化、モデルサイズが6%小さくなった。コードはGitHubにて公開されており、https://github.com/human-analysis/MUXConv から入手可能である。