
我々は、新たなニューラルネットワーク設計パラダイムである「可逆列ネットワーク(Reversible Column Network, RevCol)」を提案する。RevColの本体は、複数のサブネットワーク(各々「列」として呼ぶ)のコピーから構成され、これらの列の間には多段階の可逆接続が採用されている。このアーキテクチャ設計により、RevColは従来のネットワークとは大きく異なる挙動を示す:順伝播の過程において、特徴量は各列を通過するにつれて徐々に分離(disentangled)され、その情報の総量は圧縮または破棄されるのではなく、保持される。実験の結果、CNN型のRevColモデルは、画像分類、物体検出、セマンティックセグメンテーションといった複数のコンピュータビジョンタスクにおいて非常に競争力のある性能を達成することが示された。特にパラメータ数が大きく、データセットが大規模な状況下で顕著な成果を示す。例えば、ImageNet-22Kでの事前学習を経たRevCol-XLは、ImageNet-1Kで88.2%の精度を達成した。さらに、より多くの事前学習データを用いた場合、最大規模のモデルであるRevCol-Hは、ImageNet-1Kで90.0%、COCO検出のminivalセットで63.8%のAPbox、ADE20kセグメンテーションで61.0%のmIoUを達成した。現時点において、これは純粋な(静的)CNNモデルの中で、COCO検出およびADE20kセグメンテーションの最高性能である。また、汎用的なマクロアーキテクチャとして、RevColはTransformerや他のニューラルネットワークにも導入可能であり、コンピュータビジョンおよび自然言語処理(NLP)の両分野において性能向上が確認された。コードとモデルは、https://github.com/megvii-research/RevCol にて公開している。