
초록
우리는 이전 연구들(Kobayashi 등, 2020; Zhang 등, 2020)보다 개념적으로 더 단순한 상향식 접근 방식(top-down approach)을 제안한다. 문서를 반복적으로 개별 담론 단위로 분할하는 목표를 갖는 시퀀스 레이블링 문제로 문제를 재정의함으로써, 디코더를 제거하고 분할 지점에 대한 탐색 공간을 축소할 수 있다. 본 연구에서는 전통적인 순환 모델과 최신의 사전 훈련된 트랜스포머 모델을 모두 탐색하며, 추가적으로 상향식 분할을 위한 새로운 동적 오라클(dynamic oracle)을 도입한다. Full 지표 기준으로 제안하는 LSTM 모델은 RST 분할 작업에서 새로운 최고 성능을 달성한다.