2달 전
아랍어 다ialect 분할: bi-LSTM-CRF 대비 SVM
Mohamed Eldesouki; Younes Samih; Ahmed Abdelali; Mohammed Attia; Hamdy Mubarak; Kareem Darwish; Kallmeyer Laura

초록
아랍어 단어 분할은 기계 번역 및 정보 검색과 같은 다양한 자연어 처리(NLP) 응용 프로그램에 필수적입니다. 분할은 단어를 그 구성 요소인 어간, 접사, 그리고 클리틱으로 나누는 과정을 포함합니다. 본 논문에서는 각 방언에 대해 수천 개의 훈련 예제만 사용하여 네 가지 주요 아랍어 방언을 분할하는 두 가지 접근법을 비교합니다. 두 가지 접근법은 문제를 순위 결정 문제로 설정하여 SVM 랭커가 최상의 분할을 선택하는 방법과 시퀀스 라벨링 문제로 설정하여 bi-LSTM RNN과 CRF가 결합되어 단어를 어디에서 가장 잘 분할해야 하는지를 결정하는 방법을 포함합니다. 우리는 제한된 훈련 데이터를 사용함에도 불구하고 모든 방언에 대해 탄탄한 분할 결과를 달성할 수 있었습니다. 또한 현대 표준 아랍어 데이터를 도메인 적응에 활용하고 문맥 독립성을 가정하면 전체 결과가 개선됨을 보여주었습니다.