3ヶ月前

自己教師付き視覚Transformerの学習に関する実証的研究

Xinlei Chen, Saining Xie, Kaiming He
自己教師付き視覚Transformerの学習に関する実証的研究
要約

本論文は新たな手法の提示を目的としていない。むしろ、近年のコンピュータビジョン分野における進展、特にVision Transformer(ViT)に対する自己教師学習(self-supervised learning)の発展を踏まえ、シンプルかつ段階的(incremental)でありながら、今後必須となる基準手法(baseline)の検討に焦点を当てる。標準的な畳み込みネットワーク(convolutional networks)の学習手法はすでに高度に成熟し、堅牢性を備えているが、ViTのための学習手法、特に自己教師学習の文脈ではその構築がまだ始まったばかりであり、学習プロセスがより困難な状況に直面している。本研究では、基本に戻り、自己教師学習によるViT学習に向けたいくつかの基本的要素の影響を調査する。その結果、精度の低下を引き起こす主要な要因として、学習の不安定性が顕在化した。この不安定性は、一見良好な結果をもたらすことで隠蔽されやすく、実際には部分的な失敗であることが判明した。安定した学習が実現されることで、これらの結果は改善可能であることが示された。本研究では、MoCo v3をはじめとする複数の自己教師学習フレームワークにおいてViTの性能をベンチマークし、さまざまな側面におけるアブレーション(ablation)実験を実施した。現在の研究で得られている肯定的な知見、ならびに残された課題と未解決の問いについても議論する。本研究が、今後の研究における有用なデータポイントおよび実践的知見の提供に貢献することを期待している。