HyperAIHyperAI

Command Palette

Search for a command to run...

非編集の教育ビデオから視覚表現のエンドツーエンド学習

Antoine Miech∗ Jean-Baptiste Alayrac∗ Lucas Smaira2 Ivan Laptev1 Josef Sivic1,3 Andrew Zisserman2,4

概要

ビデオの注釈付けは煩雑で、費用が高く、スケーラブルではありません。しかし、多くの強力なビデオモデルは依然として手動で注釈付けられたデータに依存しています。最近、HowTo100Mデータセットの導入により、ナレーテッドビデオ(解説付きビデオ)が手動の監視なしにビデオ表現を学習する可能性を提供しています。本研究では、ナレーテッドビデオに固有の不整合に対処できる新しい学習手法であるMIL-NCEを提案します。この手法を使用することで、手動の注釈なしに強力なビデオ表現をゼロから学習することが可能になります。我々は提案した表現を8つのデータセットにおける4つの下流タスクで評価しました:アクション認識(HMDB-51, UCF-101, Kinetics-700)、テキストからビデオへの検索(YouCook2, MSR-VTT)、アクション局所化(YouTube-8M Segments, CrossTask)、およびアクション分割(COIN)。当手法はこれらのタスクにおいて既存の自己教師ありアプローチすべてといくつかの完全教師ありベースラインを超える性能を示しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています