17日前
動画を用いた深層学習技術による暴力認識
{Dina Khattab, Bassel Safwat Chawky, Youssef Mohamed Mostafa, Mina Abd El-Massih Nashed, Mohamed Hussein Kamal, Mohamed Mostafa Soliman}
要約
動画における個人間または群衆間の暴力行為の自動認識は、広範な関心を寄せられている分野である。本研究では、動画内の暴力行為を認識する目的で、エンドツーエンドの深層ニューラルネットワークモデルを提案する。提案モデルは、ImageNetで事前学習されたVGG-16を空間特徴抽出器として用い、その後に長期短期記憶(LSTM)を時系列特徴抽出器として配置し、分類の目的で全結合層のシーケンスを構成している。本モデルは、ほぼ最先端(state-of-the-art)の精度を達成した。さらに、本研究では新たなベンチマークとして「リアルライフ・バイオレンス状況(Real-Life Violence Situations)」を導入した。このベンチマークは、2000本の短時間動画から構成されており、うち1000本が暴力動画、1000本が非暴力動画に分類されている。この新ベンチマークを用いて提案モデルのファインチューニングを実施した結果、最高で88.2%の認識精度を達成した。