2ヶ月前
マルチモーダルな憎悪メーム分類のためのメームと単語のマッピング
Burbi, Giovanni ; Baldrati, Alberto ; Agnolucci, Lorenzo ; Bertini, Marco ; Del Bimbo, Alberto

要約
マルチモーダルな画像-テキスト系のミームはインターネット上で広く見られ、視覚要素とテキスト要素を組み合わせてユーモア、アイデア、または感情を伝える独特のコミュニケーション形式として機能しています。しかし、一部のミームは悪意のある方向に転じ、憎しみを煽るコンテンツを促進し、差別を助長することがあります。このようなマルチモーダルな文脈における憎しみミームの検出は、テキストと画像が相互に関連する意味を理解することを必要とする難易度の高い課題です。本研究では、この問題に対処するためにマルチモーダルな憎しみミーム分類手法として新しいアプローチであるISSUES(原文)を提案します。ISSUESは事前学習されたCLIPビジョン-言語モデルとテキスト逆転技術を利用することで、効果的にミームのマルチモーダルな意味内容を捉えます。実験結果は、当手法がHateful Memes ChallengeおよびHarMemeデータセットにおいて最先端の成果を達成していることを示しています。コードと事前学習済みモデルは公開されており、以下のURLからアクセスできます: https://github.com/miccunifi/ISSUES。