10日前

長尾データ向けの特徴空間拡張

Peng Chu, Xiao Bian, Shaopeng Liu, Haibin Ling
長尾データ向けの特徴空間拡張
要約

現実世界のデータは、各クラスの出現頻度が通常異なるため、長尾分布を示すことが多くあります。たとえば、データセットには少数派のクラスが多数存在し、一方で十分なデータが揃っている少数のクラスが存在する場合があります。しかし、データセットを表現するモデルは、クラス間で均一な性能を発揮することが期待されます。データの不均衡問題を緩和するためのベストプラクティスとして、クラスバランス損失の導入や、データの再サンプリング・拡張技術の高度化が挙げられます。しかしながら、少数派クラスに関する問題のもう一方の側面、すなわち欠落した情報の回復には、追加の知識の導入が不可欠です。本研究では、豊富なサンプルを持つクラスから学習した特徴を用いて、特徴空間上で少数派クラスの特徴を拡張する新たなアプローチを提案します。具体的には、クラス活性化マップ(class activation maps)を用いて、各クラスの特徴を「クラス普遍的成分」と「クラス固有成分」に分解します。その後、訓練過程において、少数派クラスのクラス固有成分と、混同しやすいクラス(confusing classes)のクラス普遍的成分を融合することで、リアルタイムに新たな少数派クラスのサンプルを生成します。iNaturalist、ImageNet-LT、Places-LT、および長尾版CIFARといった複数のデータセットにおける実験結果から、本手法が最先端の性能を達成することが示されました。

長尾データ向けの特徴空間拡張 | 最新論文 | HyperAI超神経