MCTS는 Multi-Reference Chinese Text Simplification Dataset의 약자로, 베이징 언어대학, 동북대학, 청화대학의 연구팀이 2024년에 공개한 중국어 텍스트 단순화 데이터 세트입니다.MCTS: 다중 참조 중국어 텍스트 단순화 데이터 세트"는 자연어 처리 분야의 텍스트 단순화 작업에 대한 풍부한 리소스와 지원을 제공하는 것을 목표로 합니다.
이 데이터 세트는 Penn Chinese Treebank(CTB) 표준에 따라 뉴스 코퍼스에서 선택한 723개의 복잡한 구조의 문장을 포함하고 있으며, 각 문장에는 여러 개의 수동 단순화된 버전이 적용되어 있어 중국어 텍스트 단순화 작업을 위한 가장 크고 가장 많이 참조되는 평가 데이터 세트가 되었습니다. 또한 MCTS는 세 가지 유형의 문장 재작성 방법, 즉 의역, 문장 압축, 구조 변환을 정의합니다. 이러한 다양성은 다양한 텍스트 단순화 전략을 포괄합니다.
MCTS 데이터 세트는 등급별 독해 및 기계 번역과 같은 연구 분야에 적합할 뿐만 아니라, 언어 학습자가 복잡한 텍스트를 더 잘 이해하고 처리하는 데 도움이 될 수 있습니다.
사용 측면에서 MCTS는 훈련을 위한 병렬 데이터를 제공하며, 이를 사용하여 중국어 텍스트 단순화 모델을 훈련하고 최적화할 수 있습니다. 동시에 연구자들은 SARI, BLEU, HSK 레벨과 같은 자동 평가 지표를 사용하여 시스템에서 생성된 단순화된 텍스트를 데이터 세트의 여러 참조 단순화된 버전과 비교하여 시스템의 성능을 정량화할 수도 있습니다.