モダリティに配慮した自己蒸留を用いた対照的インスタンス学習による弱教師付き音声-視覚的暴力検出

弱教師付き音声視覚暴力検出は、ビデオレベルのラベルのみを用いて、マルチモーダルな暴力イベントを含むスニペットを識別することを目的としている。これまでの多くの先行研究では、音声と視覚の統合および相互作用を早期または中間段階で行っているが、弱教師付き設定におけるモダリティ間の異質性を無視している。本論文では、複数インスタンス学習(MIL)プロセスにおけるモダリティ非同期性およびインスタンスの区別不能性の現象を分析し、それらが弱教師付き音声視覚学習に与える悪影響をさらに検討する。これらの課題に対処するため、自己蒸留を組み込んだモダリティに配慮した対照的インスタンス学習(MACIL-SD)戦略を提案する。具体的には、軽量な二ストリームネットワークを用いて音声および視覚のバッグを生成し、無教師的に単モダリティの背景、暴力的、および通常のインスタンスを半バッグ(semi-bag)にクラスタリングする。その後、音声および視覚の暴力的半バッグ表現をポジティブペアとして統合し、異なったモダリティにおける背景および通常インスタンスと組み合わせてネガティブペアとして対照学習に用いる。さらに、自己蒸留モジュールを導入し、単モダリティの視覚知識を音声視覚モデルへ転移することで、ノイズを低減し、単モダリティとマルチモーダリティ特徴間の意味的ギャップを縮小する。実験の結果、大規模なXD-Violenceデータセットにおいて、本フレームワークは従来手法を上回る性能を示しつつ、計算複雑度も低く抑えられている。また、提案手法が他のネットワークにプラグインモジュールとして組み込めることが実証されている。コードは以下のURLで公開されている:https://github.com/JustinYuu/MACIL_SD。