HyperAIHyperAI

Command Palette

Search for a command to run...

階層的なビデオフレームシーケンス表現を用いた深層畳み込みグラフネットワーク

Feng Mao Xiang Wu Hui Xue Rong Zhang

概要

高精度のビデオラベル予測(分類)モデルは、大規模なデータに帰属します。これらのデータは、事前学習された畳み込みニューラルネットワークによって抽出されたフレーム特徴量シーケンスであり、モデル作成の効率を向上させます。非監督的な手法である特徴平均プーリングは、単純でラベルに依存せずパラメータフリーの方法ですが、ビデオを表現する能力が限定的です。一方、RNNなどの監督的手法は認識精度を大幅に向上させることが可能です。しかし、ビデオの長さが通常長いことと、ビデオ内のイベント間でフレーム間に階層的な関係があるため、RNNベースのモデルの性能は低下します。本論文では、深層畳み込みグラフニューラルネットワーク(DCGN)に基づく新しいビデオ分類手法を提案します。提案手法では、ビデオの階層構造の特性を利用し、グラフネットワークを通じてビデオフレームシーケンスに対して多段階の特徴量抽出を行い、イベントセマンティクスを階層的に反映したビデオ表現を得ることを目指しています。我々はYouTube-8M大規模ビデオ理解データセット上で提案モデルを検証し、その結果はRNNベースの基準モデルを上回っています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています