11日前

USB: 分類向け統合型半教師付き学習ベンチマーク

Yidong Wang, Hao Chen, Yue Fan, Wang Sun, Ran Tao, Wenxin Hou, Renjie Wang, Linyi Yang, Zhi Zhou, Lan-Zhe Guo, Heli Qi, Zhen Wu, Yu-Feng Li, Satoshi Nakamura, Wei Ye, Marios Savvides, Bhiksha Raj, Takahiro Shinozaki, Bernt Schiele, Jindong Wang, Xing Xie, Yue Zhang
USB: 分類向け統合型半教師付き学習ベンチマーク
要約

半教師あり学習(Semi-supervised Learning, SSL)は、大量のラベルなしデータを活用して限られたラベル付きサンプルを補完することで、モデルの汎化性能を向上させる手法である。しかし、現在の主流のSSL評価プロトコルは、主にコンピュータビジョン(CV)タスクに限定されている。また、従来の研究では深層ニューラルネットワークを再びから訓練するケースが多く、計算コストが高く、環境負荷も大きいという問題がある。こうした課題を解決するため、本研究では、コンピュータビジョン(CV)、自然言語処理(NLP)、音声処理(Audio)の分野から選定した15の多様で挑戦的かつ包括的な分類タスクを基盤に、統一されたSSLベンチマーク(Unified SSL Benchmark, USB)を構築した。本ベンチマークでは、代表的なSSL手法を体系的に評価し、これらの手法を公正に比較できるモジュール化・拡張可能なオープンソースコードベースを公開している。さらに、CVタスクにおける最先端ニューラルモデルの事前学習済みバージョンを提供することで、さらなる微調整にかかるコストを抑えることを実現した。USBにより、複数の分野にまたがる15のタスクに対して、単一のSSLアルゴリズムを低コストで評価することが可能となる。具体的には、1台のNVIDIA V100でFixMatchをUSBの15タスクすべてに評価するには39 GPU日間の計算時間で済む一方、TorchSSLを用いて5つのCVタスク(ImageNetを除く4つのデータセットを含む)に評価するには335 GPU日間(うち279 GPU日間がImageNet以外の4つのCVデータセットに要する)が必要となる。

USB: 分類向け統合型半教師付き学習ベンチマーク | 最新論文 | HyperAI超神経