2달 전

DMRST: 문서 수준 다국어 RST 담화 분할 및 구문 분석을 위한 통합 프레임워크

Zhengyuan Liu; Ke Shi; Nancy F. Chen
DMRST: 문서 수준 다국어 RST 담화 분할 및 구문 분석을 위한 통합 프레임워크
초록

텍스트 담화 분석은 자연어에서 정보 흐름과 논증 구조를 이해하는 데 중요한 역할을 하므로, 후속 작업에 유익합니다. 이전 연구들은 RST(Rhetorical Structure Theory) 담화 분석의 성능을 크게 향상시켰지만, 실제 사용 사례에는 쉽게 적용할 수 없습니다: (1) EDU(Elementary Discourse Unit) 세분화가 대부분의 기존 트리 파싱 프레임워크에 통합되어 있지 않아, 새로운 데이터에 이러한 모델을 적용하는 것이 직관적이지 않습니다. (2) 대부분의 파서는 다국어 시나리오에서 사용될 수 없으며,这是因为它们仅在英语中开发。(这是因为它们仅在英语中开发. 这句话需要调整为韩语表达习惯)修正后的翻译:(2) 대부분의 파서는 영어로만 개발되었기 때문에 다국어 환경에서 사용할 수 없습니다. (3) 단일 도메인 트리뱅크에서 학습된 파서는 도메인 외 입력에 대해 잘 일반화되지 않습니다. 본 연구에서는 문서 수준의 다국어 RST 담화 분석 프레임워크를 제안하며, 이 프레임워크는 EDU 세분화와 담화 트리 파싱을 동시에 수행합니다. 또한, 우리는 크로스 번역 증강 전략을 제안하여 프레임워크가 다국어 파싱을 지원하고 도메인 일반성을 개선하도록 합니다. 실험 결과, 우리의 모델은 모든 하위 작업에서 문서 수준의 다국어 RST 담화 분석에서 최고의 성능을 보였습니다.

DMRST: 문서 수준 다국어 RST 담화 분할 및 구문 분석을 위한 통합 프레임워크 | 최신 연구 논문 | HyperAI초신경