2달 전

AlephBERT: 히브리어 대형 사전 학습 언어 모델로 히브리어 NLP 애플리케이션을 시작하세요

Amit Seker; Elron Bandel; Dan Bareket; Idan Brusilovsky; Refael Shaked Greenfeld; Reut Tsarfaty
AlephBERT: 히브리어 대형 사전 학습 언어 모델로 히브리어 NLP 애플리케이션을 시작하세요
초록

대형 사전 학습 언어 모델(PLM)은 언어 이해 기술의 개발에서 필수적이며, 많은 인공지능 발전의 중심에 있습니다. 영어에서 PLM을 사용한 발전은 전례 없는 것이지만, 히브리어에서 PLM을 사용한 발전은 거의 보고되지 않았습니다. 이 문제는 두 가지 측면으로 나뉩니다. 첫째, 히브리어로 이용 가능한 NLP 모델 학습 자원이 영어와 비교할 수 없을 정도로 적습니다. 둘째, 히브리어 PLM의 진척 상황을 평가하기 위한 공인된 작업과 벤치마크가 없습니다. 본 연구에서는 이러한 두 가지 측면을 개선하고자 합니다. 첫째, 현대 히브리어를 위한 대형 사전 학습 언어 모델인 AlephBERT를 제시합니다. 이 모델은 이전의 어떤 히브리어 PLM보다 더 큰 어휘와 더 큰 데이터셋으로 학습되었습니다. 둘째, AlephBERT를 활용하여 분절(Segmentation), 품사 태깅(Part-of-Speech Tagging), 완전 형태소 태깅(full Morphological Tagging), 명명된 개체 인식(Named-Entity Recognition) 및 감성 분석(Sentiment Analysis) 등 여러 히브리어 작업과 벤치마크에서 새로운 최고 성능 결과를 제시합니다. 우리는 AlephBERT 모델을 공개적으로 제공하여 히브리어 NLP 응용 프로그램의 개발에 대한 단일 진입점을 제공합니다.