2달 전

MUSS: 다국어 비지도 문장 단순화를 위한 동의어 채굴

Louis Martin; Angela Fan; Éric de la Clergerie; Antoine Bordes; Benoît Sagot
MUSS: 다국어 비지도 문장 단순화를 위한 동의어 채굴
초록

문장 단순화의 진전은 특히 영어 이외의 언어에서 라벨이 부착된 평행 단순화 데이터의 부족으로 인해 제약을 받아 왔습니다. 우리는 라벨이 부착된 단순화 데이터를 필요로 하지 않는 다국어 비지도 문장 단순화 시스템인 MUSS(Multilingual Unsupervised Sentence Simplification)를 소개합니다. MUSS는 문장 수준의 동의어 데이터를 사용하여 강력한 모델을 훈련시키는 새로운 접근 방식을 사용합니다. 이러한 모델들은 비지도 사전 학습과 제어 가능한 생성 메커니즘을 활용하여 추론 시 길이와 어휘 복잡성 등의 속성을 유연하게 조정할 수 있습니다. 또한, 공통 크롤(Common Crawl)에서 의미론적 문장 임베딩을 사용하여 어떤 언어에서도 이러한 동의어 데이터를 채굴하는 방법을 제시합니다. 이로 인해 라벨이 부착된 데이터가 필요하지 않게 되었습니다. 우리는 영어, 프랑스어, 스페인어 단순화 벤치마크에서 우리의 접근 방식을 평가하였으며, 라벨이 부착된 단순화 데이터를 사용하지 않았음에도 불구하고 이전 최고의 지도 결과와 거의 일치하거나 그보다 우수한 성능을 보였습니다. 우리는 라벨이 부착된 단순화 데이터를 통합함으로써 기술 수준을 한층 더 발전시켰습니다.

MUSS: 다국어 비지도 문장 단순화를 위한 동의어 채굴 | 최신 연구 논문 | HyperAI초신경