3ヶ月前

オムニソースWebly-supervised学習による動画認識

Haodong Duan, Yue Zhao, Yuanjun Xiong, Wentao Liu, Dahua Lin
オムニソースWebly-supervised学習による動画認識
要約

我々は、ウェブデータを活用して動画認識モデルを学習するための新規フレームワーク「OmniSource」を提案する。OmniSourceは、画像、短い動画、長時間の未トリム動画といった異なるデータ形式間の障壁を克服し、ウェブリーサポート学習(webly-supervised learning)におけるデータ利用を効率化する。まず、タスク固有のデータ収集により選別された複数形式のデータサンプルを、教師モデルによる自動フィルタリングを経て統一された形式に変換する。次に、複数のデータソースおよび形式間のドメインギャップに対処するための共同学習戦略を提案する。共同学習においては、データバランス、リサンプリング、クロスデータセットミックスアップ(cross-dataset mixup)といった良好な実践手法を採用している。実験の結果、複数のデータソースおよび形式を活用することで、OmniSourceはよりデータ効率的な学習が可能であることが示された。人為的なラベル付けを一切行わず、インターネットから収集した350万枚の画像と80万分の動画(従来手法の2%未満)のみを用いて学習した本モデルは、Kinetics-400ベンチマークにおいて、2D-ConvNetおよび3D-ConvNetのベースラインモデルのTop-1精度をそれぞれ3.0%および3.9%向上させた。OmniSourceを用いることで、動画認識のための異なる事前学習戦略において、新たな記録を樹立した。特に、学習から開始(training-from-scratch)、ImageNet事前学習、IG-65M事前学習の各設定において、最高のモデルがKinetics-400ベンチマークでそれぞれ80.4%、80.5%、83.6%のTop-1精度を達成した。