ノイズのあるラベルでの学習のための自己教師付き事前学習:分割とは対照的に

ノイズを含むラベルによる学習(LNL)手法の成功は、通常の教師あり学習を全データ(ノイズあり)セットを用いて行う「ウォームアップ段階」の成功に大きく依存している。本論文では、「ウォームアップ障害」と呼ばれる問題を特定する。すなわち、標準的なウォームアップ段階では、高品質な特徴抽出器を学習できず、ノイズを含むラベルの記憶(memorization)を回避できないという問題である。これを解決するために、我々は「コントラスト・トゥ・ディバイド」(Contrast to Divide, C2D)と呼ばれるシンプルなフレームワークを提案する。C2Dは、自己教師学習(self-supervised)の手法を用いて特徴抽出器を事前学習することで、この問題を克服する。自己教師学習による事前学習により、既存のLNL手法の性能が著しく向上し、ウォームアップ段階におけるノイズレベルへの感受性が大幅に低下し、段階の期間が短縮され、抽出された特徴の品質も向上する。C2Dは既存手法と即座に統合可能であり、特に高ノイズ環境下で顕著な性能向上を示す。CIFAR-100において90%のノイズが存在する状況では、従来の最先端手法に対して27%以上の性能向上を達成した。実世界のノイズ設定において、mini-WebVisionで学習したC2Dは、WebVisionおよびImageNetの検証セットにおいて、従来手法よりトップ1精度で3%向上した。本研究では、フレームワークの詳細な分析を行い、異なる事前学習アプローチの性能を検証するとともに、半教師あり学習を用いたLNL手法の理論的上限(有効な上界)を推定した。実験の再現に必要なコードは、https://github.com/ContrastToDivide/C2D にて公開されている。