
現実世界のデータはしばしば重度に不均衡であり、データ駆動型の深層ニューラルネットワークに著しい歪みをもたらすため、長尾認識(Long-Tailed Recognition, LTR)は極めて困難な課題となっている。既存のLTR手法は、長尾(LT)データ上で視覚変換器(Vision Transformers, ViTs)を学習する例がほとんどなく、標準的な事前学習重みを使用することで、評価の公平性が損なわれる場合がある。本論文では、ViTsがLTRにおいて果たす性能を体系的に検証し、LTデータのみを用いてViTsをゼロから学習する手法LiVTを提案する。ViTsがLTR問題に特に敏感であるという観察に基づき、汎化性の高い特徴を学習するため、マスクされた生成的事前学習(Masked Generative Pretraining, MGP)を導入した。豊富かつ確固たる実証的証拠により、MGPが教師あり学習手法よりも優れたロバスト性を示すことを示した。さらに、ViTsにおいて顕著な性能を発揮する二値交差エントロピー(Binary Cross Entropy, BCE)損失関数は、LTRにおいて困難に直面する。そこで、理論的根拠を備えたバランス化BCE(Bal-BCE)を提案し、その改善を図った。特に、シグモイド関数の不偏拡張を導出し、追加のロジットマージンを補正することで、その実装を可能とした。本研究のBal-BCEは、数エポックでViTsの高速収束を実現した。広範な実験により、MGPとBal-BCEを組み合わせたLiVTが、追加データを一切用いずにViTsを効果的に学習でき、比較可能な最先端手法を顕著に上回ることを実証した。例えば、ViT-BモデルはiNaturalist 2018データセットにおいて、特別な工夫なしに81.0%のTop-1精度を達成した。コードは https://github.com/XuZhengzhuo/LiVT で公開されている。