MemeCLIP: CLIP 표현을 활용한 다중 모달 밈 분류

텍스트가 포함된 이미지의 복잡성은 이러한 이미지가 전달하는 표현의 여러 측면을 다중모드로 이해해야 하는 필요성이 있어 기계 학습에서 큰 도전과제를 제시합니다. 이전의 다중모드 분석 연구는 주로 혐오 발언 및 그 하위 범주와 같은 단일 측면에 초점을 맞추었으나, 본 연구에서는 혐오, 혐오 대상, 태도, 유머 등 언어학적 여러 측면으로 범위를 확장합니다. 우리는 LGBTQ+ 프라이드 운동과 관련된 5,063개의 텍스트가 포함된 이미지를 포함하는 새로운 데이터셋 PrideMM을 소개함으로써 기존 자원에서 심각한 부족점을 해결하고자 합니다. 우리는 단일모드 및 다중모드 기준 방법을 사용하여 각 작업에 대한 벤치마크를 설정하기 위해 PrideMM에서 광범위한 실험을 수행했습니다. 또한, 사전 학습된 CLIP 모델의 지식을 유지하면서 효율적인 하류 학습을 위한 새로운 프레임워크인 MemeCLIP을 제안합니다. 실험 결과 MemeCLIP은 두 개의 실제 데이터셋에서 이전에 제안된 프레임워크들보다 우수한 성능을 보였습니다. 우리는 또한 혐오 분류 작업에서 MemeCLIP과 제로샷 GPT-4의 성능을 비교하였습니다. 마지막으로, 잘못 분류된 샘플들을 정성적으로 분석하여 우리의 모델이 가지는 한계점들을 논의하였습니다. 우리의 코드와 데이터셋은 공개적으로 이용 가능하며, 다음 링크에서 확인할 수 있습니다: https://github.com/SiddhantBikram/MemeCLIP.이 번역은 원문의 내용과 일치하도록 최대한 노력하였으며, 한국어 독자가 자연스럽게 이해할 수 있도록 문장 구조를 최적화하였습니다. 전문 용어와 기술 개념은 해당 분야에서 일반적으로 사용되는 용어로 번역하였으며, 필요한 경우 원문 용어를 괄호 안에 표기하였습니다.