
要約
近年、すべてがマルチレイヤーパーセプトロン(MLP)で構成されたニューラルアーキテクチャが、コンピュータビジョン分野において大きな研究関心を集めている。しかし、空間情報とチャネル情報の混合が非効率であるため、MLP型のビジョンモデルは大規模データセットにおける膨大な事前学習を必要としている。本研究では、新たな知識蒸留(knowledge distillation)の視点からこの問題を解決する。我々は、空間次元およびチャネル次元それぞれに蒸留トークン(distillation tokens)を導入することで、両次元における情報混合を向上させる新しい「空間-チャネルトークン蒸留(Spatial-channel Token Distillation: STD)」手法を提案する。さらに、相互情報量正則化を導入することで、蒸留トークンがそれぞれの次元に特化し、性能向上を最大化するように制御する。ImageNet上における複数のMLP型アーキテクチャに対する広範な実験により、提案するトークン蒸留機構が精度向上に効果的に寄与することが示された。例えば、Mixer-S16に対してSTDを適用した場合、JFT-300Mデータセット上の高コストな事前学習を一切行わずに、トップ-1精度を73.8%から75.7%まで向上させた。より強力なアーキテクチャ、例えばCycleMLP-B1およびCycleMLP-B2に対しても、それぞれ約1.1%および0.5%の精度向上が達成された。