8日前
弱教師付き音声視覚暴力検出を双曲空間で学習する
Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Ping Yang, Zizhao Wu

要約
近年、弱教師付き音声・視覚的暴力検出というタスクは著しい注目を集めている。このタスクの目的は、ビデオレベルのラベルに基づいてマルチモーダルデータ内の暴力的セグメントを特定することにある。この分野における進展にもかかわらず、従来の研究で用いられてきたユークリッド空間におけるニューラルネットワークは、特徴空間の制約により、極めて判別力の高い表現を捉えることに困難を抱えている。これを克服するため、本研究では、ハイパーボリック空間におけるスニペット埋め込みを学習することでモデルの判別力を向上させる新しいフレームワーク、HyperVDを提案する。本フレームワークは、音声信号と視覚信号間のモダリティ不一致を効果的に緩和するためのデトゥール融合モジュールを備えている。さらに、ハイパーボリック空間においてスニペット間の特徴類似性および時系列的関係を掘り下げる、完全ハイパーボリックグラフ畳み込みネットワークの二つのブランチを導入している。この空間におけるスニペット表現の学習により、暴力的イベントと通常のイベントとの間の意味的差異を効果的に捉えることが可能となる。XD-Violenceベンチマークを用いた広範な実験の結果、本手法は最先端手法を大きく上回る性能を示した。