11일 전
UTNLP at SemEval-2022 Task 6: 생성 기반 및 변이 기반 데이터 증강을 이용한 풍자 탐지의 비교 분석
Amirhossein Abaskohi, Arash Rasouli, Tanin Zeraati, Behnam Bahrak

초록
비꼬는 말(sarcasm)은 누군가를 조롱하거나 자극하거나 웃기기 위해 말을 사용하는 것을 의미한다. 이는 소셜미디어에서 흔히 사용되는 표현 방식이다. 비꼬는 말의 은유적이고 창의적인 특성은 정서 분석 시스템, 특히 정서 컴퓨팅 기반의 시스템에 큰 도전 과제를 제시한다. 본 논문에서는 UTNLP 팀이 SemEval-2022 공동 과제 6인 비꼬는 말 탐지에서 수행한 방법론과 결과를 제시한다. 우리는 다양한 모델과 데이터 증강 기법을 비교 평가하고, 가장 효과적인 방법을 보고한다. 실험은 전통적인 머신러닝 모델에서 시작하여 트랜스포머 기반 및 어텐션 기반 모델로 확장된다. 데이터 증강 방법으로는 데이터 변형(data mutation)과 데이터 생성(data generation) 기법을 활용하였다. RoBERTa 모델과 변형 기반 데이터 증강을 결합한 최적의 접근 방식은 대회 평가 단계에서 F1-sarcastic 점수 0.38을 달성하였다. 대회 이후 모델의 결함을 보완한 결과, F1-sarcastic 점수는 0.414까지 향상되었다.