13日前

Pro-Cap:凍結された視覚言語モデルを活用した嫌悪的ミーム検出

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee, Jing Jiang
Pro-Cap:凍結された視覚言語モデルを活用した嫌悪的ミーム検出
要約

嫌悪的ミーム検出は、視覚と言語の理解、およびマルチモーダル間の相互作用を要する挑戦的なタスクである。近年の研究では、このタスクに向けた事前学習済み視覚言語モデル(PVLM)のファインチューニングが試みられている。しかし、モデルの規模が増大するにつれ、単にファインチューニングを行うのではなく、強力なPVLMをより効率的に活用することが重要となる。最近、研究者たちはミーム画像をテキストキャプションに変換し、言語モデルにプロンプトを与えて予測を行うアプローチを試みている。この手法は良好な性能を示したが、画像キャプションが情報量に乏しいという課題を抱えている。上記の2つの要因を踏まえ、本研究ではゼロショット視覚質問応答(VQA)の枠組みでPVLMを活用する、プロービングベースのキャプション生成手法を提案する。具体的には、固定されたPVLMに対して嫌悪的コンテンツに関連する質問を提示し、その回答を画像キャプション(以下、Pro-Capと呼ぶ)として利用することで、嫌悪的コンテンツ検出に重要な情報を含むキャプションを生成する。3つのベンチマークにおけるPro-Capを用いたモデルの優れた性能から、本手法の有効性および汎化能力が実証された。