17日前
時間的融合アプローチによる動画分類:畳み込みニューラルネットワークおよびLSTMを用いた暴力検出への応用
{Carlos Maur´ıcio Ser´odio Figueiredo, Jean Phelipe de Oliveira Lima}
要約
現代のスマートシティにおいて、最も高度な統合性と自動化サービスの実現が求められている。監視分野では、特にリアルタイムでの動画解析を自動化し、重要な事態を検出するという課題が中心的な位置を占めている。本論文では、Convolutional Neural Networks(畳み込みニューラルネットワーク)を用いた知能モデル、特にMobileNet、InceptionV3、VGG16の各ネットワークを活用し、LSTMネットワークおよびフィードフォワードネットワークを組み合わせることで、「暴力(Violence)」と「非暴力(Non-Violence)」の2クラスに分類する動画分類タスクを実現した。この研究では、RLVSデータベースを用い、時間的融合(Temporal Fusion)技術に基づいた異なるデータ表現手法を検討した。その結果、最高でAccuracyが0.91、F1-Scoreが0.90を達成し、同データベースを用いた類似研究と比較して、優れた性能を示した。