
ニューラルネットワークにおける画像解析タスクにおける汎化能力の向上は、パラメータ数や層数、データセットサイズ、学習およびテスト時の計算量、GPUのメモリ使用量の増加というコストを伴ってきました。本研究では、最新のTransformerや畳み込みニューラルネットワーク(CNN)と同等の汎化性能を発揮しつつ、より少ないリソースを要する新しいアーキテクチャ「WaveMix-Lite」を提案します。WaveMix-Liteは、2次元離散ウェーブレット変換(2D-discrete wavelet transform)を用いて、画素間の空間情報を効率的に混合します。このアーキテクチャは、TransformerやCNNと異なり、画像分類やセマンティックセグメンテーションといった複数の視覚タスクに柔軟かつスケーラブルに適用可能であり、大きなアーキテクチャの変更を必要とせずに運用可能です。単一のGPU上で学習を行うにもかかわらず、いくつかの精度ベンチマークで既存の性能を達成または上回っています。具体的には、5つのEMNISTデータセットにおいて最先端の精度を達成し、ImageNet-1KおよびPlaces-365ではCNNおよびTransformerを上回る性能を示しました。また、Cityscapesの検証セットにおいてはmIoU 77%を達成しており、同等のCNNやTransformerと比較してパラメータ数は5分の1以下、GPUメモリ使用量は半分未満で実現しています。実験の結果から、従来の畳み込み層が画像のシフト不変性(shift-invariance)を活用している一方で、ウェーブレット変換のような新たな種類の層は、画像のスケール不変性(scale-invariance)や物体の有限な空間的拡がりといった、より豊かな画像特徴を活用できることが示されました。