8日前
弱教師あり下でのマルチモーダルな暴力検出のための学習:見るだけでなく聞くこと
Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu, Zhiwei Yang

要約
暴力検出は長年にわたりコンピュータビジョン分野で研究されてきた。しかし、これまでの研究はいずれも浅いものであり、短時間の動画クリップの分類や単一シナリオに限定されている。あるいは、マルチモーダルなアプローチにおいても、モダリティが単一であり、手作業で設計された特徴量に依存するなど、十分な研究が行われていない。本研究では、こうした課題に対処するため、まず217時間の合計長さを有し、4754本の未編集動画(音声信号付き)と弱教師ラベルを含む大規模かつ多様なシーンをカバーするデータセット「XD-Violence」を公開する。次に、動画スニペット間の異なる関係を捉え、特徴を統合するための、3つの並列ブランチから構成されるニューラルネットワークを提案する。そのうち、ホリスティックブランチは類似性の事前知識を用いて長距離依存関係を捉え、ローカライズドブランチは近接性の事前知識により局所的な位置関係を抽出し、スコアブランチは予測スコアの近接性を動的に捕捉する。さらに、オンライン検出の要件に応えるため、近似器を組み込む。提案手法は、公開したデータセットおよび既存のベンチマークにおいて、他の最先端手法を上回る性能を示した。また、広範な実験結果から、マルチモーダル(音声・視覚)入力および関係性モデリングの有効性が明確に示された。本研究のコードおよびデータセットは、https://roc-ng.github.io/XD-Violence/ にて公開される予定である。