要約
大規模なデータセットの収集は、ノイズを含むラベルの導入を避けがたく、深層ニューラルネットワーク(DNN)の性能に著しい低下をもたらす。従来、ノイズラベル付き学習の分野では、サンプル選択が主流のアプローチとして用いられており、モデル学習過程におけるノイズラベルの影響を軽減することを目的としている。しかしながら、これらの手法のテスト性能は、ノイズ率やノイズの種類に応じて顕著な変動を示すことが知られている。本論文では、サンプル選択プロセスにおける事前情報に依存しない、モデルのロバスト性を向上させる新しいフレームワークである「Cross-to-Merge Training(C2MT)」を提案する。実装上、訓練データをクロス分割し、二つの異なるネットワークを複数の局所ラウンドにわたり共通学習(co-teaching)戦略で相互に訓練した後、定期的に二つのモデルのパラメータに対してフェデレーテッド平均(federated averaging)を適用して統一モデルに統合する。さらに、クロス分割プロセス中に新たなクラスバランス戦略である「メジアンバランス戦略(Median Balance Strategy, MBS)」を導入し、推定された損失分布の特性に基づいて、ラベル付きサブセットとラベルなしサブセットに訓練データを均等に分割する。合成データおよび実世界データセットを用いた広範な実験結果から、C2MTの有効性が実証された。コードは以下のURLで公開される予定である:https://github.com/LanXiaoPang613/C2MT。