
要約
近年のディープラーニングの進展は、高容量なモデルを訓練するための大規模でラベル付きデータセットに依存している。しかし、時間的・経済的に効率的な方法で大規模なデータセットを収集する際には、ラベルノイズが生じる傾向がある。本研究では、特徴空間におけるトレーニング例同士の類似性を活用するノイズラベルからの学習手法を提案する。この手法は、各サンプルの予測値がその近傍サンプルと類似するよう促す。複数のモデルや段階的な処理を用いる従来の訓練アルゴリズムと比較して、本手法は単純な追加正則化項として実装可能であり、古典的なトランスダクティブなラベル伝播アルゴリズムの誘導型(inductive)バージョンと解釈できる。本手法は、合成的なノイズ(CIFAR-10、CIFAR-100)および現実的なノイズ(mini-WebVision、WebVision、Clothing1M、mini-ImageNet-Red)を含む複数のデータセット上で包括的に評価され、すべてのデータセットにおいて競争力あるまたは最先端の精度を達成した。