HyperAIHyperAI

Command Palette

Search for a command to run...

スケールにおけるセミ教師付きビジョン・トランスフォーマー

Zhaowei Cai Avinash Ravichandran Paolo Favaro Manchen Wang Davide Modolo Rahul Bhotika Zhuowen Tu Stefano Soatto

概要

視覚変換器(ViT)における半教師付き学習(SSL)は、ViTアーキテクチャがさまざまなタスクに広く採用されているにもかかわらず、依然として十分に研究が進んでいない分野である。本研究では、この課題に対処するため、まず自己/自己教師付きの事前学習を実施し、その後に教師付き微調整(fine-tuning)を経て、最後に半教師付き微調整を行う新しいSSLパイプラインを提案する。半教師付き微調整段階においては、一般的に用いられるFixMatchに代わり、指数移動平均(EMA)を用いたTeacherフレームワークを採用している。これは、半教師付き視覚変換器の学習においてより安定性が高く、精度も向上するためである。さらに、弱い誘導バイアス(inductive bias)を持つViTの学習において特に重要となる正則化を強化するため、未ラベルサンプルとその擬似ラベルを確率的混合(probabilistic pseudo mixup)によって補間する新たなメカニズムを提案する。本研究で提案する手法は「Semi-ViT」と命名し、半教師付き分類設定において従来のCNNベース手法と同等または優れた性能を達成している。また、Semi-ViTはViTが持つスケーラビリティの利点を活かしており、モデルサイズを拡大するにつれて精度が向上する特性を有している。例えば、Semi-ViT-HugeはImageNetデータセットにおいてわずか1%のラベルを用いても、トップ1精度80%を達成し、100%のラベルを用いたInception-v4と同等の性能を示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています