
要約
弱教師付きマルチモーダル暴力検出は、RGB、オプティカルフロー、音声などの複数のモーダリティを活用しながら、ビデオレベルのアノテーションのみが利用可能な状況で暴力検出モデルを学習することを目指しています。効果的なマルチモーダル暴力検出(MVD)の追求において、情報冗長性、モーダリティの不均衡、およびモーダリティの非同期性が3つの主要な課題として特定されています。本研究では、これらの課題に明確に対処する新しい弱教師付きMVD手法を提案します。具体的には、多尺度ボトルネックトランスフォーマー(Multi-Scale Bottleneck Transformer: MSBT)に基づく融合モジュールを導入し、ボトルネックトークンの数を削減して情報を段階的に凝縮し、各モーダリティペアを融合します。また、ボトルネックトークンに基づく重み付けスキームを使用して重要な融合特徴量を強調します。さらに、時間的一貫性コントラスト損失を提案し、語彙的に対応したペアワイズ融合特徴量を実現します。最大規模のXD-Violenceデータセットでの実験結果は、提案手法が最先端の性能を達成していることを示しています。コードは以下のURLから入手可能です:https://github.com/shengyangsun/MSBT。