16日前
スケールにおけるセミ教師付きビジョン・トランスフォーマー
Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto

要約
視覚変換器(ViT)における半教師付き学習(SSL)は、ViTアーキテクチャがさまざまなタスクに広く採用されているにもかかわらず、依然として十分に研究が進んでいない分野である。本研究では、この課題に対処するため、まず自己/自己教師付きの事前学習を実施し、その後に教師付き微調整(fine-tuning)を経て、最後に半教師付き微調整を行う新しいSSLパイプラインを提案する。半教師付き微調整段階においては、一般的に用いられるFixMatchに代わり、指数移動平均(EMA)を用いたTeacherフレームワークを採用している。これは、半教師付き視覚変換器の学習においてより安定性が高く、精度も向上するためである。さらに、弱い誘導バイアス(inductive bias)を持つViTの学習において特に重要となる正則化を強化するため、未ラベルサンプルとその擬似ラベルを確率的混合(probabilistic pseudo mixup)によって補間する新たなメカニズムを提案する。本研究で提案する手法は「Semi-ViT」と命名し、半教師付き分類設定において従来のCNNベース手法と同等または優れた性能を達成している。また、Semi-ViTはViTが持つスケーラビリティの利点を活かしており、モデルサイズを拡大するにつれて精度が向上する特性を有している。例えば、Semi-ViT-HugeはImageNetデータセットにおいてわずか1%のラベルを用いても、トップ1精度80%を達成し、100%のラベルを用いたInception-v4と同等の性能を示している。