
초록
현재의 코로나19 팬데믹은 NLP 연구와 하류 응용 프로그램을 지원하여 팬데믹과 싸우는 데 도움이 되는 많은 말뭉치(corpus)를 생성하였습니다. 그러나 이러한 대부분의 말뭉치가 영어 전용이라는 문제가 있습니다. 코로나19 팬데믹이 전 세계적인 문제인 만큼, 영어 외의 언어에 대한 코로나19 관련 데이터셋을 생성하는 것이 중요합니다. 본 논문에서는 베트남어를 위한 첫 번째 수작업으로 주석된 코로나19 분야 특화 데이터셋을 소개합니다. 특히, 우리의 데이터셋은 미래의 다른 유행병에서도 사용될 수 있는 새로운 엔티티 유형으로 명명된 엔티티 인식(NER) 작업에 주석이 달려 있습니다. 또한, 우리의 데이터셋은 기존 베트남어 NER 데이터셋보다 가장 많은 엔티티를 포함하고 있습니다. 우리는 강력한 베이스라인을 사용하여 우리의 데이터셋에서 실험을 실시하였으며, 다음과 같은 결과를 발견하였습니다: 자동 베트남어 단어 분절(word segmentation)은 NER 결과 향상에 도움이 되며, 사전 학습된 언어 모델을 미세 조정(fine-tuning)할 때 최고 성능을 얻었습니다. 여기서 단일 언어 모델인 PhoBERT (Nguyen and Nguyen, 2020)가 다국어 모델인 XLM-R (Conneau et al., 2020)보다 더 높은 성능을 보였습니다. 우리는 이 데이터셋을 공개적으로 배포하며, 배포 링크는 다음과 같습니다: https://github.com/VinAIResearch/PhoNER_COVID19