8日前

音声誘導型アテンションネットワークを用いた弱教師あり暴力検出

{Xiaoyu Wu, Yujiang Pu}
要約

動画内の暴力を検出することは、複雑なシナリオやクラス内変動の大きさのため、困難なタスクである。これまでの多くの研究は、外観情報または運動情報の分析に特化しており、音声と視覚イベントの同時発生を無視している。例えば、身体的衝突(虐待や喧嘩)は通常、叫び声を伴うが、群衆の暴力(暴動や戦闘)は銃声や爆発音と関連していることが多い。このような背景を踏まえ、本研究では新たな音声誘導型マルチモーダル暴力検出フレームワークを提案する。まず、深層ニューラルネットワークを用いて外観特徴と音声特徴をそれぞれ抽出する。次に、時系列方向における音声から視覚特徴への強化を実現するため、クロスモーダル意識局所覚醒(Cross-Modal Awareness Local-Arousal; CMA-LA)ネットワークを提案する。強化された特徴は、次に多層パーセプトロン(MLP)に入力され、高次元の意味情報を捉える。その後、時系列畳み込み層を用いて高信頼度の暴力スコアを取得する。提案手法の有効性を検証するため、大規模な暴力動画データセット「XD Violence」上で実験を実施した。包括的な実験結果から、本手法の堅牢な性能が示され、また、新たな最先端のAP(Average Precision)スコアを達成したことが確認された。

音声誘導型アテンションネットワークを用いた弱教師あり暴力検出 | 最新論文 | HyperAI超神経