16일 전
CMU METAL 페르시아어 NLP 접근법
{Mehdi Manshadi, Weston Feely, Lori Levin, Robert Frederking}
초록
영어와 같은 주요 언어를 분석하는 데 사용할 수 있는 고품질 도구는 많지만, 페르시아어와 같이 중요하나 자원이 부족한 언어를 위한 동등한 무료 도구는 확보하고 유용한 자연어 처리(NLP) 전단에 통합하는 데 더 어려움이 있다. 본 연구에서는 작성된 페르시아어 분석 전단의 정확성과 효율성을 보고한다. 이 전단은 페르시아어 텍스트를 다루고자 하는 연구자들에게 유용할 수 있다. 기존에 존재하는 구성 요소 및 자원으로는, Dadegan Treebank(Rasooli 등, 2013)를 기반으로 훈련된 캐리기 메이슨 대학교의 TurboParser 및 TurboTagger(Martins 등, 2010), 우프살라 대학교의 텍스트 정규화 도구 PrePer(Seraji, 2013), 동일 대학교의 페르시아어 토큰화 도구(Seraji 등, 2012a), 그리고 Jon Dehdari의 PerStem(Jadidinejad 등, 2010)을 포함한다. 이 도구 세트는 우리가 개발하여 공개한 추가적인 정규화 및 토큰화 모듈과 결합하여, 독립된 분석 테스트 데이터셋에서 의존성 파싱의 레이블링 첨부 점수(89.49%), 레이블 없는 첨부 점수(92.19%), 레이블 정확도(91.38%)를 달성하였다. 사용된 모든 구성 요소 및 자원은 무료로 공개되어 있다. 본 연구에서는 이러한 구성 요소와 자원을 설명함과 동시에, 선택한 이유에 대해 논의한다.