MemeCLIP: CLIP表現を活用した多モーダルミーム分類

テキスト埋め込み画像の複雑さは、それらが表現する複数の側面を多モーダルに理解する必要があるため、機械学習において大きな課題となっています。従来の多モーダル分析に関する研究は主にヘイトスピーチやそのサブクラスなどの単一の側面に焦点を当てていましたが、本研究では言語学的な複数の側面:ヘイト、ヘイトの対象、立場、ユーモアに焦点を広げています。私たちはLGBTQ+プライド運動に関連する5,063枚のテキスト埋め込み画像から構成される新しいデータセットPrideMMを導入し、既存のリソースにおける深刻な空白を埋めることを目指しています。PrideMMに対して、ユニモーダルおよびマルチモーダルのベースライン手法を使用して各タスクのベンチマークを確立するために広範な実験を行いました。さらに、効率的なダウンストリーム学習を行う一方で事前学習済みCLIPモデルの知識を保つための新しいフレームワークMemeCLIPを提案します。私たちの実験結果は、MemeCLIPが2つの実世界データセット上で以前に提案されたフレームワークよりも優れた性能を達成していることを示しています。また、ヘイト分類タスクにおいてMemeCLIPとゼロショットGPT-4の性能を比較しました。最後に、誤分類されたサンプルを定性的に分析することで、私たちのモデルの欠点について議論します。私たちのコードとデータセットは公開されており、以下のURLからアクセスできます: https://github.com/SiddhantBikram/MemeCLIP。この翻訳は上記の要件に基づいて作成されました。専門用語や技術概念については一般的な日本語訳を使用し、文章構造や表現は日本語読者にとって自然かつ正式になるよう調整されています。原文との内容の一貫性も確認しております。