Hate-CLIPper: CLIP特徴量のクロスモーダル相互作用に基づくマルチモーダル憎悪メーム分類

憎悪を助長するミームは、ソーシャルメディア上でますます深刻な問題となっています。ミーム内の画像とそれに伴うテキストは関連していますが、個別に見ると必ずしも同じ意味を伝えるわけではありません。したがって、憎悪ミームの検出には視覚情報とテキスト情報の両方を慎重に考慮することが必要です。マルチモーダル事前学習は、このタスクにおいて有益であると考えられています。なぜなら、これにより画像とテキストの関係性が類似の特徴空間で表現され、効果的に捉えられるからです。さらに、画像とテキストの特徴量間の中間融合を通じてその相互作用をモデル化することが重要です。既存の方法の多くは、マルチモーダル事前学習または中間融合のいずれかを使用していますが、両方を組み合わせているものは少ないです。本研究では、Contrastive Language-Image Pre-training (CLIP) エンコーダーを使用して得られた画像とテキスト表現間のクロスモーダル相互作用を明示的にモデル化するための Hate-CLIPper アーキテクチャを提案します。このアーキテクチャでは、特徴相互作用行列(Feature Interaction Matrix, FIM)を通じて相互作用が表現されます。FIM表現に基づく単純な分類器は、Hateful Memes Challenge (HMC) データセットにおいてAUROC 85.8という最先端の性能を達成しており、これは人間の性能(82.65)さえ上回っています。Propaganda MemesやTamilMemesなどの他のミームデータセットでの実験でも、提案手法の一貫性が示されています。最後に、FIM表現の解釈可能性について分析し、クロスモーダル相互作用が実際に意味のある概念の学習を促進することを示しました。本研究に関するコードは https://github.com/gokulkarthik/hateclipper で公開されています。