3ヶ月前
NGC:オープンワールドノイズデータにおける学習のための統一枠組み
Zhi-Fan Wu, Tong Wei, Jianwen Jiang, Chaojie Mao, Mingqian Tang, Yu-Feng Li

要約
機械学習システムの学習フェーズおよびテストフェーズにおいて、ノイズを含むデータの存在は広く見られる現象であり、これはモデル性能の低下を避けがたい結果として引き起こす。過去10年間で、分布内(in-distribution, IND)のノイズラベルを用いた学習に関する研究が多数行われており、特に真のクラスと一致しない誤ったラベルが一部の学習サンプルに付与されている状況に注目している。しかし、実用的な応用シーンでは、既知のクラスに属さないサンプル、すなわち分布外(out-of-distribution, OOD)のサンプルの影響を考慮する必要があるが、この点についてはまだ十分に検討されていない。こうした課題を解決するために、本研究では新たな問題設定「開かれた世界におけるノイズデータを用いた学習(Learning with Open-world Noisy Data, LOND)」を提案する。LONDの目的は、INDおよびOODの両方のノイズが混在するデータセットから、同時に分類器とOOD検出器を学習することにある。本論文では、データの幾何学的構造とモデルの予測信頼度を活用してクリーンなサンプルを収集する新しいグラフベースのフレームワーク、すなわち「ノイズグラフクリーニング(Noisy Graph Cleaning, NGC)」を提案する。追加の訓練作業を必要とせず、学習済みのクラスプロトタイプに基づいてテストフェーズで直接OODサンプルを検出し排除できる。複数のベンチマークにおいて異なる種類のノイズを用いた実験を行い、その結果、本手法が既存の最先端手法を上回る優れた性能を示した。