3ヶ月前

自己教師あり学習による動画誘発視覚不変性の学習

Michael Tschannen, Josip Djolonga, Marvin Ritter, Aravindh Mahendran, Xiaohua Zhai, Neil Houlsby, Sylvain Gelly, Mario Lucic

論文の詳細を見る

要約

本研究は、ビデオ誘導視覚不変性（Video-Induced Visual Invariances; VIVI）に基づく、転移可能な視覚表現を自己教師学習するための汎用フレームワークを提案する。我々はビデオに内在する暗黙的な階層構造に着目し、(i) フレームレベルの不変性（たとえば色やコントラストの摂動に対する安定性）、(ii) ショット／クリップレベルの不変性（物体の向きや照明条件の変化に対するロバスト性）、(iii) ビデオレベルの不変性（ショット／クリップ間のシーン間の意味的関係）を活用して、包括的な自己教師学習損失関数を定義する。YouTube-8M（YT8M）データセットから得た動画を用いて、提案フレームワークの異なるバリエーションでモデルを訓練した結果、Visual Task Adaptation Benchmark（VTAB）の19の多様な下流タスクにおいて、各タスクでたった1000ラベルのみを用いて、最先端の自己教師学習による転移学習性能を達成した。さらに、ラベル付き画像と併せてモデルを共同学習させる手法を提示し、ImageNetで事前学習されたResNet-50よりもラベル付き画像を10分の1の量で使用した場合に0.8ポイント優れた性能を発揮するとともに、ImageNet全データセットを用いた場合、従来の最良の教師ありモデルを3.7ポイント上回ることを示した。