ラベルの曖昧性を伴う画像分類のためのマルチラベル反復学習

大規模な事前学習モデルからの転移学習は、多くのコンピュータビジョンタスクにおいて不可欠な手法となっている。近年の研究では、ImageNetのようなデータセットが弱いラベル付け(weakly labeled)であることが指摘されている。これは、複数の物体クラスが同時に存在する画像に対して単一のラベルが割り当てられているためであり、この曖昧さがモデルに単一の予測を偏向させる要因となり、データ中に共起しやすいクラスの表現が抑制される可能性がある。言語の出現に関する文献に着想を得て、本研究では「マルチラベル反復学習(Multi-label Iterated Learning, MILe)」を提案する。MILeは、反復学習(iterated learning)の枠組みを用いて、単一ラベルからマルチラベル学習の誘導的バイアス(inductive biases)を導入する手法である。この手法は、学習ボトルネックを有する教師・生徒ネットワークの連続的世代間でバイナリ予測を伝播させることで、画像に対するマルチラベル記述を構築するという、シンプルでありながら効果的なプロセスである。実験結果から、MILeはImageNetの精度およびReaL F1スコアにおいて体系的な向上を示しており、標準的な学習手順に比べてラベルの曖昧さに対してより適切に対処できることを示している。これは、自己教師あり学習で得た重みからのファインチューニング時においても同様に有効である。さらに、MILeはラベルノイズの低減にも効果的であり、WebVisionのような現実世界の大規模ノイズデータセットにおいて、最先端の性能を達成している。また、IIRCのようなクラス増分学習(class incremental setting)においても性能向上をもたらし、分布シフトに対して高いロバスト性を示している。コードは以下のGitHubリポジトリで公開されている:https://github.com/rajeswar18/MILe