13日前

HateMM:嫌悪動画分類のためのマルチモーダルデータセット

Mithun Das, Rohit Raj, Punyajoy Saha, Binny Mathew, Manish Gupta, Animesh Mukherjee
HateMM:嫌悪動画分類のためのマルチモーダルデータセット
要約

差別発言は現代社会における最も重要な課題の一つとなり、オンラインおよびオフラインの両方の領域に大きな影響を及ぼしている。このため、差別発言に関する研究は近年急速に注目を集めている。しかし、これまでの研究の多くはテキストメディアに焦点を当てており、画像や動画に関する研究は相対的に少ない。特に動画分野における自動モデレーション技術はまだ初期段階にあり、プラットフォーム上の動画投稿を安全かつ健全な状態に保つためには、早期段階での自動動画監視手法の開発が急務である。本研究では、動画共有プラットフォームから差別的コンテンツを検出・排除する目的で、マルチモーダルなアプローチを用いた差別的動画検出に取り組んだ。具体的には、BitChuteから約43時間分の動画を収集し、手動で「差別的」または「非差別的」とラベル付けした。また、ラベル付けの根拠となるフレーム区間も付与した。関連する動画の収集には、差別的用語の語彙(hate lexicons)から抽出した検索キーワードを活用した。分析の結果、差別的動画においては画像と音声の両方から多様な兆候が観察された。さらに、深層学習を用いたマルチモーダルモデルを構築し、差別的動画を分類する実験を行った。その結果、すべてのモダリティ(視覚、音声、テキスト)を統合したモデルが、最も優れた単モーダルモデルと比較して、マクロF1スコアで約5.7%向上するという成果を得た(正解率:0.798、マクロF1スコア:0.790)。本研究は、BitChuteのような動画ホスティングプラットフォームにおける差別的動画の理解とモデリングに向けた初の重要な一歩を踏み出した。

HateMM:嫌悪動画分類のためのマルチモーダルデータセット | 最新論文 | HyperAI超神経