10日前
長尾視覚認識におけるラベル分布の分離
Youngkyu Hong, Seungju Han, Kwanghee Choi, Seokjun Seo, Beomsu Kim, Buru Chang

要約
長尾視覚認識の現在の評価プロトコルは、分類モデルを長尾のソースラベル分布で学習し、その性能を一様なターゲットラベル分布上で評価するものである。このプロトコルには実用性の疑問が残る。なぜなら、実際のターゲット分布も長尾である可能性があるからである。そこで、本研究ではターゲットとソースのラベル分布が異なるという点に着目し、長尾視覚認識をラベルシフト問題として定式化する。ラベルシフト問題に対処する上で大きな障壁となるのは、ソースラベル分布とモデル予測との間の混同(entanglement)である。本論文では、この混同を解消することに焦点を当てる。まず、交差エントロピー損失とソフトマックス関数により学習されたモデル予測に対して、後処理によってターゲットラベル分布に一致させるという、シンプルながらも軽視されがちなベースライン手法を提案する。この手法は、ベンチマークデータセットにおいて最先端手法を上回る性能を示すが、訓練段階でソースラベル分布をモデル予測から直接分離することでさらなる改善が可能である。そこで、ドンスカー=ヴァラドハン表現の最適バウンドに基づく、新たな損失関数であるLAbel distribution DisEntangling(LADE)損失を提案する。LADEはCIFAR-100-LT、Places-LT、ImageNet-LT、iNaturalist 2018といった複数のベンチマークデータセットにおいて、最先端の性能を達成した。さらに、さまざまなシフトされたターゲットラベル分布においても既存手法を上回る結果を示しており、本研究で提案する手法の汎用性の高さを裏付けている。