대규모 언어 모델 간 다중모달 토론을 통한 해석 가능한 유해 멤에 탐지

소셜 미디어 시대는 인터넷 미믹(meme)으로 가득 차 있으며, 이에 따라 유해한 미믹을 명확히 이해하고 효과적으로 식별하는 것이 절실히 요구된다. 그러나 미믹에 내재된 암시적 의미는 표면적인 텍스트나 이미지로는 명시적으로 전달되지 않기 때문에, 이 작업은 큰 도전 과제를 안고 있다. 현재까지 제안된 유해 미믹 탐지 방법들은 이러한 암시적 의미를 드러내는 가독성 있는 설명을 제공하지 못해, 탐지 결정을 뒷받침하지 못하는 문제가 있다. 본 논문에서는 유해성과 무해성이라는 대립적인 입장을 기반으로 하는 모순된 근거(reasoning)를 추론함으로써 설명 가능한 유해 미믹 탐지 접근법을 제안한다. 구체적으로, 대규모 언어 모델(Large Language Models, LLMs)이 텍스트 생성 및 추론에 뛰어난 능력을 지닌 점에 착안하여, LLM 간의 다중모달 토론을 유도함으로써 대립적 논거에서 유래된 설명을 생성한다. 이후, 유해성 판단을 위한 소규모 언어 모델을 미세조정(fine-tune)하여 토론 심사관으로 활용함으로써, 유해성 근거와 미믹 내부에 내재된 다중모달 정보 간의 융합을 촉진한다. 이를 통해 본 모델은 무해성과 유해성 논거로부터 기인한 다중모달 설명을 활용하여, 복잡하고 암묵적인 유해성 신호 패턴에 대해 대화적 추론(dialectical reasoning)을 수행할 수 있게 된다. 공개된 세 가지 미믹 데이터셋을 대상으로 수행한 광범위한 실험 결과, 제안하는 유해 미믹 탐지 방법이 최신 기술 대비 훨씬 뛰어난 성능을 보이며, 모델 예측의 유해성에 대한 설명 능력에서도 뛰어난 우수성을 입증하였다.