7日前
リトリーブ拡張型嫌悪的ミーム検出のための大型マルチモーダルモデルのロバストな適応
Jingbiao Mei, Jinghong Chen, Guangyu Yang, Weizhe Lin, Bill Byrne

要約
嫌悪的なミームはインターネット上での重大な懸念事項となっており、堅牢な自動検出システムの開発が不可欠である。近年の研究では、視覚言語モデル(LMM)が嫌悪的ミーム検出において有望な成果を示しているものの、性能が最適でない、およびドメイン外への一般化能力が限られているといった顕著な課題に直面している。さらに、最近の研究は、この文脈におけるLMMへのSFT(Supervised Fine-Tuning)およびコンテキスト内学習(in-context learning)の適用においても、その限界が明らかになっている。こうした問題に対処するため、本研究では、LMMの一般的な視覚言語能力を維持しつつ、ドメイン内精度とドメイン間一般化能力を向上させる堅牢な適応フレームワークを提案する。6つのミーム分類データセットを用いた実験の結果、本手法はより大規模なエージェント型システムを上回る最先端の性能を達成した。さらに、標準的なSFT手法と比較して、嫌悪的コンテンツを説明する根拠(rationale)の質が高いため、モデルの解釈可能性も向上している。