Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method 最初にアライメント、その後フュージョン:弱教師付きマルチモーダル暴力検出の新手法

弱教師付き暴力検出とは、ビデオレベルのラベルのみを使用してモデルを訓練し、ビデオ内の暴力的な部分を識別する技術を指します。これらの手法の中でも、音声や光学フローなどのモダリティを統合するマルチモーダル暴力検出は大きな可能性を持っています。この分野の既存の方法は主に、モダリティ間の相違点に対処するためにマルチモーダル融合モデルの設計に焦点を当てています。一方で、我々は異なるアプローチを取り、暴力イベント表現におけるモダリティ間の固有の相違点を利用することで、新しいマルチモーダル意味特徴アライメント方法を提案します。この方法では、局所的、一時的かつ情報量が少ないモダリティ(例えば音声と光学フロー)の意味特徴を疎にマッピングし、より情報量が多いRGB意味特徴空間に変換します。反復プロセスを通じて、適切な非ゼロ特徴マッチング部分空間を特定し、その部分空間に基づいてモダリティ固有のイベント表現をアライメントすることで、後続のモダリティ融合段階においてすべてのモダリティからの情報を完全に活用することが可能になります。此基础上,我们设计了一种新的弱教師付き暴力検出フレームワーク。これは単一モダリティ多实例学習による単一モダリティ意味特徴抽出、マルチモーダルアライメント、マルチモーダル融合および最終的な検出から構成されています。ベンチマークデータセットでの実験結果は我々の手法の効果性を示しており、XD-Violenceデータセットにおいて平均精度(AP)86.07%という成績を達成しています。我々のコードは https://github.com/xjpp2016/MAVD で公開されています。注:「基础上」在日语中通常会表达为「此基础上で」或「此基础上に」,但为了保持句子的流畅性和自然度,这里直接翻译为「此基础上」并稍作调整以适应日语的表达习惯。