13日前
マルチモーダル嫌悪検出のための堅牢なフレームワークへ:動画と画像ベースのコンテンツに関する研究
Girish A. Koushik, Diptesh Kanojia, Helen Treharne

要約
ソーシャルメディアプラットフォームは、テキスト、音声、視覚といった異なるモダリティを通じて嫌悪的コンテンツの拡散を可能にしているため、効果的な検出手法の開発が求められている。近年のアプローチは個々のモダリティに対して有望な結果を示しているが、複数モダリティの組み合わせにおける実効性については依然として未解明である。本研究では、複数モダリティにおける嫌悪コンテンツ検出に向けた統合手法について体系的な分析を実施し、特に動画および画像ベースのコンテンツにおける性能に焦点を当てる。包括的な評価から、モダリティ固有の制限が顕在化した。具体的には、単純な埋め込み統合手法が動画コンテンツ(HateMMデータセット)において最先端の性能を達成し、F1スコアで9.9ポイントの向上を示した一方で、ミーム(Hateful Memesデータセット)における複雑な画像-テキスト関係の処理には苦戦していることが明らかになった。詳細なアブレーション研究および誤差分析を通じて、現行の統合手法が、特に無害な混同要因(benign confounders)を含むケースにおいて、微細なクロスモダリティ相互作用を捉えられていないことを示した。本研究の結果は、より堅牢な嫌悪コンテンツ検出システムの開発に向けた重要な知見を提供するとともに、モダリティごとのアーキテクチャ的配慮の必要性を強調している。コードは以下のURLにて公開されている:https://github.com/gak97/Video-vs-Meme-Hate。