17日前

視覚タスク適応ベンチマークを用いた表現学習の大規模な研究

Xiaohua Zhai, Joan Puigcerver, Alexander Kolesnikov, Pierre Ruyssen, Carlos Riquelme, Mario Lucic, Josip Djolonga, Andre Susano Pinto, Maxim Neumann, Alexey Dosovitskiy, Lucas Beyer, Olivier Bachem, Michael Tschannen, Marcin Michalski, Olivier Bousquet, Sylvain Gelly, Neil Houlsby

論文の詳細を見る

要約

表現学習は、高価なラベル付きデータセットを必要とせずに、視覚タスクの長尾部分におけるディープラーニングの活用を可能にするという期待を抱かせている。しかし、一般化された視覚表現に対する統一的な評価基準の不在が、進展を阻んでいる。現在一般的に用いられる評価プロトコルは、しばしば制約が厳しすぎる（線形分類）、多様性に欠ける（ImageNet、CIFAR、Pascal-VOC）、あるいは表現の質と弱い相関しか持たない（ELBO、再構成誤差）といった問題を抱えている。本研究では、多様で未知のタスクに対して少数のサンプルで適応できる表現を「優れた表現」と定義する、視覚タスク適応ベンチマーク（Visual Task Adaptation Benchmark：VTAB）を提案する。VTABを用いて、多数の公開されている代表的な表現学習アルゴリズムについて大規模な実験を実施した。アーキテクチャやチューニング予算といった混同要因を慎重に制御した上で、以下のような問いに取り組んだ：ImageNetで学習された表現は、標準的な自然画像データセット以外のタスクにおいてどれほど有効か？生成モデルと識別モデルによって学習された表現は、どのように比較されるか？自己教師学習はラベルの代替としてどれほど有効か？また、一般化された視覚表現にどれほど近づいているのか？