3ヶ月前

長尾視覚認識のためのクラスバランス最適化蒸留法

Ahmet Iscen, André Araujo, Boqing Gong, Cordelia Schmid
長尾視覚認識のためのクラスバランス最適化蒸留法
要約

現実世界の画像データは、クラスごとの画像数に顕著な不均衡が生じることが多く、その結果、長尾分布(long-tailed distribution)が形成される。長尾視覚認識に対して効果的かつ簡潔なアプローチとして、インスタンスバランスサンプリングを用いて特徴表現を学習し、クラスバランスサンプリングを用いて分類器を学習する手法が存在する。本研究では、インスタンスサンプリングにより学習された特徴表現が長尾設定下では著しく最適ではないという重要な観察に基づき、新たなフレームワークを提案する。本研究の主な貢献は、知識蒸留(knowledge distillation)を活用して特徴表現を強化する新しい訓練手法、すなわちクラスバランス蒸留(Class-Balanced Distillation, CBD)の導入である。CBDでは、第一段階で学習された教師モデル(teacher)の知識をもとに、第二段階での特徴表現の進化をガイドする。第二段階ではクラスバランスサンプリングを採用することで、代表度が低いクラスに焦点を当てる。このフレームワークは複数の教師モデルを自然に組み合わせることが可能であり、複数モデルのアンサンブルから得られる情報を活用して認識性能を向上させることができる。実験の結果、ImageNet-LT、iNaturalist17、iNaturalist18といった長尾認識ベンチマークにおいて、提案手法が従来の最先端技術を一貫して上回ることが示された。