3ヶ月前

自己教師あり学習による動画誘発視覚不変性の学習

Michael Tschannen, Josip Djolonga, Marvin Ritter, Aravindh Mahendran, Xiaohua Zhai, Neil Houlsby, Sylvain Gelly, Mario Lucic
自己教師あり学習による動画誘発視覚不変性の学習
要約

本研究は、ビデオ誘導視覚不変性(Video-Induced Visual Invariances; VIVI)に基づく、転移可能な視覚表現を自己教師学習するための汎用フレームワークを提案する。我々はビデオに内在する暗黙的な階層構造に着目し、(i) フレームレベルの不変性(たとえば色やコントラストの摂動に対する安定性)、(ii) ショット/クリップレベルの不変性(物体の向きや照明条件の変化に対するロバスト性)、(iii) ビデオレベルの不変性(ショット/クリップ間のシーン間の意味的関係)を活用して、包括的な自己教師学習損失関数を定義する。YouTube-8M(YT8M)データセットから得た動画を用いて、提案フレームワークの異なるバリエーションでモデルを訓練した結果、Visual Task Adaptation Benchmark(VTAB)の19の多様な下流タスクにおいて、各タスクでたった1000ラベルのみを用いて、最先端の自己教師学習による転移学習性能を達成した。さらに、ラベル付き画像と併せてモデルを共同学習させる手法を提示し、ImageNetで事前学習されたResNet-50よりもラベル付き画像を10分の1の量で使用した場合に0.8ポイント優れた性能を発揮するとともに、ImageNet全データセットを用いた場合、従来の最良の教師ありモデルを3.7ポイント上回ることを示した。

自己教師あり学習による動画誘発視覚不変性の学習 | 論文 | HyperAI超神経