
초록
품사 태깅(POS tagging)은 전통적인 자연어 처리(NLP) 과제 중 하나이다. 비록 다수의 도구와 어휘자료집이 제안되었지만, 특히 가장 널리 사용되는 언어들에 대해서는 사용 라이선스, 태그셋의 크기, 또는 더 이상 최신 기술 수준에 해당하지 않는 접근 방식 등의 한계를 가지고 있다. 본 논문에서는 기존 프랑스어 어휘자료집(UD French-GSD)의 확장 버전인 ANTILLES를 제안한다. 이 확장 버전은 성, 수, 시제 등 형태론적 특성에 기반하여 획득한 고유한 레이블 세트를 포함하고 있으며, 초기 버전의 16개 레이블 대비 65개의 레이블을 포함한다. 또한, 본 어휘자료집을 기반으로 최신 기술 동향을 반영한 프랑스어용 여러 품사 태깅 도구를 개발하였다. 제안된 어휘자료집과 품사 태깅 도구는 모두 완전히 오픈 소스이며 무료로 이용 가능하다.