9日前

クラス不均衡学習の改善におけるラベルの価値の再考

Yuzhe Yang, Zhi Xu
クラス不均衡学習の改善におけるラベルの価値の再考
要約

現実世界のデータはしばしば長尾分布を示し、クラス間の著しい不均衡を伴うため、深層認識モデルにとって大きな課題となる。本研究では、不均衡学習の文脈においてラベルの価値に関する持続的なジレンマに着目する。一方で、ラベルによる教師付き学習は、教師なし学習に比べて一般的に優れた性能を発揮するが、一方で、極度に不均衡なデータは分類器に「ラベルバイアス」を引き起こすという問題がある。すなわち、多数クラスが決定境界を著しく歪める可能性がある。本研究では、ラベルのこの二面性を体系的に検討する。理論的および実証的な観点から、クラス不均衡学習が半教師付きおよび自己教師付きの両アプローチにおいて顕著な利点をもたらすことを示す。具体的には、(1) 有益な側面として、不均衡なラベルは依然として価値があることを確認する:追加のラベルなしデータを活用することで、半教師付き学習の枠組みで元のラベルを有効に活用し、ラベルバイアスを低減できる。これにより、最終的な分類器の性能が大幅に向上する。(2) 一方で、否定的な側面として、不均衡ラベルが常に有用とは限らないと主張する。自己教師付きで事前学習を行う分類器は、対応するベースラインを一貫して上回ることが確認された。大規模な不均衡データセットを用いた広範な実験により、理論的に根拠を持つ本研究の戦略が、従来の最先端手法を上回る優れた性能を示した。これらの興味深い発見は、現実の長尾タスクにおいて不均衡ラベルの使い方を見直す必要性を強調している。コードは https://github.com/YyzHarry/imbalanced-semi-self で公開されている。

クラス不均衡学習の改善におけるラベルの価値の再考 | 最新論文 | HyperAI超神経