HyperAIHyperAI

Command Palette

Search for a command to run...

自己教師あり学習による動画誘発視覚不変性の学習

Michael Tschannen Josip Djolonga Marvin Ritter Aravindh Mahendran Xiaohua Zhai Neil Houlsby Sylvain Gelly Mario Lucic

概要

本研究は、ビデオ誘導視覚不変性(Video-Induced Visual Invariances; VIVI)に基づく、転移可能な視覚表現を自己教師学習するための汎用フレームワークを提案する。我々はビデオに内在する暗黙的な階層構造に着目し、(i) フレームレベルの不変性(たとえば色やコントラストの摂動に対する安定性)、(ii) ショット/クリップレベルの不変性(物体の向きや照明条件の変化に対するロバスト性)、(iii) ビデオレベルの不変性(ショット/クリップ間のシーン間の意味的関係)を活用して、包括的な自己教師学習損失関数を定義する。YouTube-8M(YT8M)データセットから得た動画を用いて、提案フレームワークの異なるバリエーションでモデルを訓練した結果、Visual Task Adaptation Benchmark(VTAB)の19の多様な下流タスクにおいて、各タスクでたった1000ラベルのみを用いて、最先端の自己教師学習による転移学習性能を達成した。さらに、ラベル付き画像と併せてモデルを共同学習させる手法を提示し、ImageNetで事前学習されたResNet-50よりもラベル付き画像を10分の1の量で使用した場合に0.8ポイント優れた性能を発揮するとともに、ImageNet全データセットを用いた場合、従来の最良の教師ありモデルを3.7ポイント上回ることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
自己教師あり学習による動画誘発視覚不変性の学習 | 記事 | HyperAI超神経