다중모달 멤(dataset) (MultiOFF): 이미지 및 텍스트 내 괴롭힘 콘텐츠 식별을 위한 데이터셋

미모(Meme)는 인터넷을 통해 아이디어나 감정을 확산시키는 형태의 미디어이다. 웹 기반 커뮤니케이션의 새로운 형태로 미모를 공유하는 것이 점점 더 보편화되면서, 미모의 다모달성(다중 모달성)으로 인해 혐오성 미모 또는 트롤링, 사이버 폭력과 같은 관련 사건이 매일 증가하고 있다. 혐오 발언, 모욕적 콘텐츠, 공격적 콘텐츠 탐지에 대한 연구는 텍스트나 이미지와 같은 단일 모달리티에서 광범위하게 이루어져 왔다. 그러나 두 가지 모달리티를 결합하여 공격적 콘텐츠를 탐지하는 것은 여전히 발전 중인 분야이다. 특히 미모는 유머나 비꼬는 표현을 암시적으로 전달하므로, 텍스트나 이미지 중 하나만 고려할 경우 공격적인 내용으로 간주되지 않을 수 있다. 따라서 주어진 미모가 공격적인지 여부를 정확히 판단하기 위해서는 텍스트와 이미지 두 모달리티를 통합적으로 고려하는 것이 필수적이다. 그러나 다모달 공격적 미모 콘텐츠 탐지에 사용 가능한 공개 데이터셋이 존재하지 않았기 때문에, 우리는 2016년 미국 대선과 관련된 미모를 활용하여 공격적 콘텐츠 탐지를 위한 다모달 미모 데이터셋인 MultiOFF를 구축하였다. 이후 이 데이터셋을 기반으로 분류기를 개발하였다. 본 연구에서는 이미지와 텍스트 모달리티를 조기 융합(early fusion) 방식으로 결합하였으며, 텍스트 전용 및 이미지 전용 기준 모델과의 성능을 비교하여 그 효과성을 검증하였다. 실험 결과, 정밀도(Precision), 재현율(Recall), F-점수(F-Score) 모두에서 개선된 성능을 확인할 수 있었다. 본 연구의 코드와 데이터셋은 다음 URL에 공개되어 있다: \textit{https://github.com/bharathichezhiyan/Multimodal-Meme-Classification-Identifying-Offensive-Content-in-Image-and-Text}