
要約
長尾データ分布は、多くの多ラベル視覚認識タスクにおいて一般的であり、これらのデータをそのまま学習に使用すると、尾部クラス(tail classes)における性能が相対的に低くなる傾向がある。一方で、データサンプリングの再平衡(re-balanced sampling)を用いることで尾部クラスの性能は向上するが、ラベルの同時出現(label co-occurrence)の影響により、頭部クラス(head classes)の学習性能が低下する可能性がある。本論文では、均一サンプリング(uniform sampling)と再平衡サンプリングを協調的に活用する新たな学習アプローチを提案する。これにより、頭部クラスおよび尾部クラスの両方において性能向上を実現する。具体的には、二本のブランチを持つ視覚認識ネットワークを設計し、一方のブランチは均一サンプリングを、他方のブランチは再平衡サンプリングを入力とする。各ブランチにおいて、学習可能なロジット補正(learnable logit compensation)を用いた二値交差エントロピー損失(binary-cross-entropy-based classification loss)に基づく視覚認識を実施する。さらに、同一画像が二本のブランチを通過した際の出力の一貫性を強制する新たなクロスブランチ損失(cross-branch loss)を定義する。本手法はVOC-LTおよびCOCO-LTデータセット上で広範な実験により検証された。その結果、提案手法は長尾多ラベル視覚認識において、従来の最先端手法を著しく上回る性能を達成した。