16일 전

DaCy: 덴마크어 NLP를 위한 통합 프레임워크

Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo
DaCy: 덴마크어 NLP를 위한 통합 프레임워크
초록

최근 몇 년간 덴마크어 자연어 처리(NLP) 분야는 여러 새로운 데이터셋과 모델의 도입으로 상당한 발전을 이뤘다. 그러나 현재까지 덴마크어에 최신 기술을 일관성 있게 적용할 수 있는 체계적인 프레임워크는 존재하지 않는다. 본 연구에서는 SpaCy 기반의 통합형 덴마크어 NLP 프레임워크인 DaCy를 제안한다. DaCy는 명명된 실체 인식(NER), 품사 태깅, 의존성 파싱 등에서 최고 수준의 성능을 달성하는 효율적인 다중 작업(multitask) 모델을 활용한다. 또한 감정, 감정, 주관성 탐지 등 기존 모델의 간편한 통합을 위한 도구를 포함하고 있다. 더불어, DaNE 테스트 세트의 증강을 통해 덴마크어 NLP 파이프라인의 편향성과 견고성에 대한 일련의 실험을 수행하였다. DaCy large 모델은 특히 긴 입력 길이와 철자 오류, 변형에 대해 매우 견고하며, 경쟁 모델들과 비교해도 우수한 성능을 보였다. 다만, DaCy large를 제외한 모든 모델은 인종과 관련된 심각한 편향을 보였고, 단지 Polyglot 모델만이 성별 편향이 유의미하게 나타났다. 본 연구에서는 자원이 제한된 언어의 경우, 데이터 증강이 더 현실적이고 세밀한 성능 평가를 가능하게 한다는 점을 강조한다. 이를 위해 저자들은 저·중간 자원 언어용 언어 모델에 대한 보다 철저한 평가를 위한 첫걸음으로 여러 증강 도구를 제공하며, 향후 지속적인 개발을 촉구한다.

DaCy: 덴마크어 NLP를 위한 통합 프레임워크 | 최신 연구 논문 | HyperAI초신경