
要約
高精度のビデオラベル予測(分類)モデルは、大規模なデータに帰属します。これらのデータは、事前学習された畳み込みニューラルネットワークによって抽出されたフレーム特徴量シーケンスであり、モデル作成の効率を向上させます。非監督的な手法である特徴平均プーリングは、単純でラベルに依存せずパラメータフリーの方法ですが、ビデオを表現する能力が限定的です。一方、RNNなどの監督的手法は認識精度を大幅に向上させることが可能です。しかし、ビデオの長さが通常長いことと、ビデオ内のイベント間でフレーム間に階層的な関係があるため、RNNベースのモデルの性能は低下します。本論文では、深層畳み込みグラフニューラルネットワーク(DCGN)に基づく新しいビデオ分類手法を提案します。提案手法では、ビデオの階層構造の特性を利用し、グラフネットワークを通じてビデオフレームシーケンスに対して多段階の特徴量抽出を行い、イベントセマンティクスを階層的に反映したビデオ表現を得ることを目指しています。我々はYouTube-8M大規模ビデオ理解データセット上で提案モデルを検証し、その結果はRNNベースの基準モデルを上回っています。