17일 전

Pro-Cap: 얼음 시각-언어 모델을 활용한 증오 memes 탐지

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee, Jing Jiang
Pro-Cap: 얼음 시각-언어 모델을 활용한 증오 memes 탐지
초록

증오심을 담은 미모(미모) 감지(Meme Detection)는 시각과 언어를 모두 이해하고, 두 모달 간의 상호작용을 파악해야 하는 도전적인 다모달 작업이다. 최근 연구들은 이 작업을 위해 사전 훈련된 시각-언어 모델(PVLM)을 미세조정(fine-tuning)하는 방식을 시도해왔다. 그러나 모델의 크기가 점점 커짐에 따라, 단순히 모델을 미세조정하는 것보다 더 효율적으로 강력한 PVLM을 활용하는 것이 중요해지고 있다. 최근 연구자들은 미모 이미지를 텍스트 캡션으로 변환하고, 언어 모델에 프롬프트를 주어 예측을 수행하는 접근법을 시도했다. 이 방법은 우수한 성능을 보였지만, 정보량이 부족한 이미지 캡션 문제를 겪고 있다. 위에서 언급한 두 가지 요인을 고려하여, 본 연구에서는 제로샷 시각질의응답(VQA) 방식으로 PVLM을 효과적으로 활용하기 위한 탐색 기반 캡션 생성 방법을 제안한다. 구체적으로, 증오심 콘텐츠와 관련된 질문을 제시함으로써 고정된(frozen) PVLM을 프롬프트하고, 그 응답을 이미지 캡션으로 사용한다(이를 Pro-Cap이라 부름). 이 캡션은 증오심 콘텐츠 감지에 필수적인 정보를 포함하고 있다. 세 가지 벤치마크에서 Pro-Cap을 활용한 모델이 우수한 성능을 보인 것은 제안된 방법의 효과성과 일반화 능력을 입증한다.

Pro-Cap: 얼음 시각-언어 모델을 활용한 증오 memes 탐지 | 최신 연구 논문 | HyperAI초신경