ImageNetのラベル再定義:単一ラベルからマルチラベルへ、グローバルラベルから局所化ラベルへ

ImageNetは、おそらく最も普及している画像分類ベンチマークである一方で、顕著なラベルノイズを含むことでも知られている。最近の研究では、ImageNetが単一ラベル(single-label)ベンチマークであると仮定されているにもかかわらず、実際には多くのサンプルが複数のクラスに属していることが明らかになった。そのため、画像ごとに包括的な多ラベル(multi-label)アノテーションを付与することで、ImageNetの評価を多ラベルタスクに転換する手法が提案された。しかし、アノテーションコストが極めて高いことから、訓練セットの修正は行われていない。我々は、単一ラベルアノテーションと実際の多ラベル性を持つ画像との間に生じる不一致が、訓練設定において、特にランダムクロップ(random crop)が適用される状況下で、同等あるいはそれ以上に深刻な問題であると主張する。単一ラベルアノテーションでは、画像のランダムクロップが真のラベルとは全く異なる物体を含む可能性があり、訓練過程でノイズ混じり、あるいは誤った教師信号をもたらす。この問題を解決するために、我々はImageNetの訓練セットを多ラベルに再ラベル付けした。アノテーションコストの障壁を克服するため、追加のデータソースで学習された強力な画像分類モデルを用いて多ラベルを生成した。特に、最終のプーリング層前のピクセル単位の多ラベル予測を活用することで、位置情報を含む追加の監視信号を効果的に利用した。再ラベル化されたサンプル上で訓練を行うことで、全体的にモデル性能が向上した。特に、局所化された多ラベルを用いたResNet-50は、ImageNet上でトップ1分類精度78.9%を達成し、CutMix正則化を導入することでさらに80.2%まで向上した。また、局所化多ラベルで訓練されたモデルは、物体検出やインスタンスセグメンテーションといった転移学習タスク、およびさまざまなロバスト性ベンチマークにおいても、従来手法を上回る性能を示した。再ラベル化されたImageNet訓練セット、事前学習済み重み、およびソースコードは、{https://github.com/naver-ai/relabel_imagenet} にて公開されている。