
초록
이 논문은 저작권이 없는 언어(NLP Solutions for Under-Resourced Languages, NSURL) 워크숍에서 아랍어에 대한 의미적 질문 유사도(Semantic Question Similarity) 작업을 수행하기 위한 제안 방법을 설명한다. 본 연구의 목적은 주어진 데이터셋 내에서 아랍어로 작성된 의미적으로 유사한 질문을 탐지할 수 있는 모델을 구축하는 것이다. 본 연구에서는 질문 유사도를 판단하는 다양한 방법을 탐색하였다. 제안된 모델들은 88%에서 96%에 이르는 높은 F1 점수를 달성하였다. 공식 최고 성능 결과는 사전 훈련된 다국어 BERT 모델을 다양한 랜덤 시드(random seeds)로 사용한 앙상블 모델을 통해 도출되었으며, F1 점수는 95.924%로, 총 9개 참가 팀 중 1위를 기록하였다.