
초록
비꼬는 말은 의미를 암시적으로 전달하는 복잡한 언어 표현 방식이다. 복잡한 표현 방식인 만큼, 비꼬는 말을 탐지하는 것은 매우 까다로운 문제이다. 비꼬는 말을 인식하는 데 어려움은 일상적인 의사소통에서의 오해를 초래할 수 있으며, 이로 인해 자동 비꼬는 말 탐지 기술에 대한 관심이 점점 커지고 있다. Figurative Language Processing (FigLang 2020) 워크숍의 제2회 행사에서 공유 과제로 발표된 비꼬는 말 탐지 작업은 트위터와 Reddit에서 추출한 콘텍스트와 그에 대한 응답을 포함하는 두 가지 데이터셋을 공개하였다.본 연구에서는 RoBERTa_large 모델을 활용하여 두 데이터셋에서 비꼬는 말을 탐지한다. 또한, 문맥 기반 단어 임베딩 모델의 성능 향상에 있어 문맥의 중요성을 강조하기 위해 세 가지 다른 유형의 입력 방식—응답만, 콘텍스트-응답, 콘텍스트-응답(분리됨)—을 사용하여 실험을 수행한다. 결과적으로 제안하는 아키텍처가 두 데이터셋 모두에서 경쟁력 있는 성능을 보임을 입증한다. 또한, 콘텍스트와 대상 응답 사이에 분리 토큰(Seperation Token)을 추가하는 것이 Reddit 데이터셋에서 F1 점수를 5.13% 향상시킨다는 점을 확인하였다.