
ミームとは、インターネット上でアイデアや感情を広めるためのメディア形式である。ウェブ上でのミーム投稿が新たなコミュニケーション形態として定着する中、ミームのマルチモーダル性(複数の表現モダリティを併用する性質)の影響により、嫌がらせを含むミームやトロール行為、ネットいじめなどの関連事象が日々増加している。嫌悪的発言や攻撃的コンテンツ、侮辱的コンテンツの検出は、テキストや画像といった単一モダリティに焦点を当てて広く研究されてきた。しかし、テキストと画像の二つのモダリティを統合して攻撃的コンテンツを検出するアプローチは、まだ発展途上の分野である。特に、ミームは皮肉やユーモアを間接的に表現するため、テキストや画像のいずれか一方だけを考慮すると攻撃的ではないと判断される場合がある。したがって、与えられたミームが攻撃的かどうかを正確に識別するためには、テキストと画像の両方のモダリティを統合的に分析する必要がある。しかしながら、マルチモーダルな攻撃的ミームコンテンツ検出を目的とした公開データセットは存在しなかった。そこで本研究では、2016年米国大統領選挙に関連するミームを活用し、攻撃的コンテンツ検出を目的としたマルチモーダルミームデータセット「MultiOFF」を構築した。その後、このデータセットを用いて、攻撃的ミーム分類のための分類器を構築した。本研究では、画像とテキストのモダリティを早期融合(early fusion)により統合し、テキストのみ、画像のみのベースラインと比較することで、その有効性を検証した。実験の結果、精度(Precision)、再現率(Recall)、Fスコアにおいていずれも有意な向上が確認された。本研究のコードおよびデータセットは、以下のURLにて公開されている:\textit{https://github.com/bharathichezhiyan/Multimodal-Meme-Classification-Identifying-Offensive-Content-in-Image-and-Text}