13日前

PT4AL:自己教師あり事前タスクを活用したアクティブラーニング

John Seon Keun Yi, Minseok Seo, Jongchan Park, Dong-Geol Choi
PT4AL:自己教師あり事前タスクを活用したアクティブラーニング
要約

大規模なデータセットに対するラベル付けは高コストである。アクティブラーニングは、未ラベルデータセットから最も情報量の高いデータのみをラベル付けすることにより、この問題に取り組む手法である。本研究では、自己教師付き事前タスク(pretext task)と特徴的なデータサンプラーを活用し、難易度が高くかつ代表的なデータを選択する新しいアクティブラーニングアプローチを提案する。我々は、たとえば回転予測のような単純な自己教師付き事前タスクの損失が、下流タスクの損失と強く相関していることを発見した。アクティブラーニングの反復処理の前段階で、事前タスク学習モデルを未ラベルデータセット上で学習させ、未ラベルデータをその事前タスクの損失値に基づいて並べ替え、バッチに分割する。各アクティブラーニング反復において、主タスクモデルを用いてバッチ内の最も不確実なデータをサンプリングし、ラベル付けを行う。本手法は、CIFAR10、Caltech-101、ImageNet、Cityscapesなど、さまざまな画像分類およびセグメンテーションのベンチマークにおいて、優れた性能を達成した。さらに、本手法が不均衡データセットにおいても良好な性能を発揮することを示し、初期ラベル付きデータセットがランダムに選択される「コールドスタート問題」に対する有効な解決策であることも示した。