
초록
인터넷에서의 밈은 종종 무해하며 때로는 재미있을 수 있습니다. 그러나 특정 유형의 이미지, 텍스트 또는 이들의 조합을 사용함으로써, 겉보기에 무해한 밈이 다중 모드의 혐오 발언 형태로 변할 수 있습니다 -- 혐오 밈입니다. '혐오 밈 챌린지(Hateful Memes Challenge)'는 다중 모드 밈에서 혐오 발언을 감지하는 데 초점을 맞춘 최초의 경진대회로, 10,000개 이상의 새로운 다중 모드 콘텐츠 예제를 포함하는 새로운 데이터 세트를 제안합니다. 우리는 시각과 언어를 다루기 위해 설계된 VisualBERT -- 시각 및 언어에 대한 BERT라고 할 수 있는 -- 를 이미지와 캡션에 대해 다중 모드로 학습시킨 후 앙상블 학습(Ensemble Learning)을 적용하였습니다. 우리의 접근 방식은 도전 과제 테스트 세트에서 0.811 AUROC와 0.765의 정확도를 달성하였으며, '혐오 밈 챌린지'에서 3,173명의 참가자 중 세 번째로 좋은 성적을 거두었습니다.