
본 논문에서는 이진화(binarization)를 사전 처리 단계로 수행하지 않는 환경에서 그래프 기반 구성 요소 파싱(constituent parsing) 작업을 다룬다. 이 설정에서는 구성 요소 트리의 노드가 두 개 이상의 자식을 가질 수 있다. 기존의 그래프 기반 방법들은 예측을 위해 트리를 이진 트리로 변환하기 위해 n-ary 노드 내부에 가상의 레이블(dummy label)을 가진 숨겨진 노드(hidden nodes)를 생성하는 방식을 사용해왔다. 그러나 이러한 방법의 한계는 n-ary 노드의 자식들 간의 형제 관계(sibling relations)가 깨지게 된다는 점이다. 결과적으로 이러한 형제 구성 요소 간의 종속성(dependencies)이 정확히 모델링되지 않으며, 무시되는 문제가 발생한다. 이 한계를 해결하기 위해, 본 연구는 새로운 그래프 기반 프레임워크인 "재귀적 반-마르코프 모델(Recursive Semi-Markov Model)"을 제안한다. 주요 아이디어는 1차 순서 반-마르코프 모델을 사용하여 구성 요소 후보의 즉각적인 자식 시퀀스를 예측하고, 이를 재귀적으로 부모 노드의 자식 후보로 활용하는 것이다. 이를 통해 형제 구성 요소 간의 종속성은 1차 전이 특성(1-order transition features)을 통해 효과적으로 기술될 수 있으며, 위의 문제를 해결할 수 있다. 실험을 통해 제안된 프레임워크는 PTB 및 CTB 5.1 데이터셋에서 각각 95.92%, 92.50%의 F1 점수를 달성하였다. 특히, 자식 노드가 두 개를 초과하는 경우에 대해 재귀적 반-마르코프 모델은 뛰어난 성능을 보였으며, PTB에서는 평균 F1이 0.3~1.1점, CTB 5.1에서는 2.3~6.8점 향상되는 효과를 보였다.