YouTube-8M: 大規模なビデオ分類ベンチマーク

近年のコンピュータビジョンにおける多くの進歩は、大規模データセットに帰属しています。オープンソースの機械学習ソフトウェアパッケージと安価な汎用ハードウェアにより、大規模な新規手法の探索への障壁が低くなりました。数百万のサンプルでモデルを訓練することが数日のうちに可能となっています。画像理解用の大規模データセット(例:ImageNet)は存在しますが、それに匹敵するビデオ分類用の大規模データセットはこれまでありませんでした。本論文では、最大級のマルチラベルビデオ分類データセットであるYouTube-8Mを紹介します。このデータセットには約800万本のビデオ(50万時間相当)が含まれており、4800種類の視覚エンティティで注釈付けられています。これらのビデオとラベルを取得するために、YouTubeのビデオ注釈システムを使用しました。このシステムは、主なトピックに基づいてビデオにラベルを付与します。ラベルは機械生成ですが、メタデータやクエリクリック信号などの多様な人間ベースのシグナルから高精度で導き出されています。私たちは自動化されたキュレーション戦略と手動でのキュレーション戦略を用いてビデオラベル(Knowledge Graphエンティティ)をフィルタリングし、その中でも人間評価者が視覚的に認識可能なラベルを選択しました。その後、各ビデオを1秒間に1フレームで解码し、ImageNetで事前学習されたディープCNNを使用して分類層直前の隠れ表現を取り出しました。最後に、フレーム特徴量を圧縮し、それらとビデオレベルのラベルをダウンロード可能にしました。我々はこのデータセット上で様々な(比較的小さな)分類モデルを訓練し、一般的な評価指標を使用して評価を行い、それらを基準として報告しています。データセットのサイズにもかかわらず、TensorFlowを使用した単一マシン上での一部のモデルは1日未満で収束するほどです。私たちはTensorFlowモデルの訓練コードおよび指標計算コードの公開を予定しています。