UniRepLKNet:音声、動画、点群、時系列データおよび画像認識向けのユニバーサルな Perception Large-Kernel ConvNet

大径カーネルを用いた畳み込みニューラルネットワーク(ConvNet)は、近年、広範な研究注目を集めているが、未解決かつ重要な2つの課題が依然として残っている。1)既存の大径カーネルConvNetのアーキテクチャは、従来のConvNetやTransformerの設計原理に大きく依拠しているが、大径カーネルConvNetに特有のアーキテクチャ設計に関する議論はまだ十分に行われていない。2)Transformerが複数のモダリティにおいて優位を占めている一方で、ConvNetが視覚領域以外の分野においても強力な汎用的認識能力を有しているかどうかは、依然として検証が必要である。本論文では、以下の2つの観点から貢献を行う。1)大径カーネルConvNetの設計に向けた4つのアーキテクチャ指針を提案する。その核心は、小径カーネルとは異なり、深さを増さずに広範な領域を「見渡す」ことができる大径カーネルの本質的な特徴を活用することにある。これらの指針に従って設計された本研究の大径カーネルConvNetは、画像認識タスクにおいて最先端の性能を示し(ImageNet正解率88.0%、ADE20KのmIoU 55.6%、COCOボックスAP 56.4%)、近年の強力な競合モデルと比較して高い性能と高速性を実現した。2)大径カーネルが、元々得意でなかった分野におけるConvNetの優れた性能を引き出す鍵であることを発見した。特定のモダリティに特化したアーキテクチャのカスタマイズを行わずとも、ある種のモダリティ固有の前処理手法を用いることで、提案モデルは時系列予測および音声認識タスクにおいても最先端の性能を達成した。本研究で開発したすべてのコードおよびモデルは、GitHubおよびHugging Face上で公開されている。