ST-Raptor: LLM 기반의 반구조화된 테이블 질문 응답

반구조화된 표는 금융 보고서, 의료 기록, 거래 주문 등 실제 응용 분야에서 널리 사용되며, 계층적 헤더나 병합된 셀 등 유연하고 복잡한 레이아웃을 포함하는 경우가 많다. 이러한 표들은 일반적으로 인간 분석가가 표의 레이아웃을 해석하고 자연어 질문에 답하는 방식으로 처리되며, 이는 비용이 많이 들고 효율성이 낮은 과정이다. 이를 자동화하기 위해 기존의 방법들은 큰 도전에 직면해 있다. 첫째, NL2SQL과 같은 기법은 반구조화된 표를 구조화된 형태로 변환해야 하는데, 이 과정에서 상당한 정보 손실이 발생한다. 둘째, NL2Code 및 다중 모달 대규모 언어 모델(QA) 기반 방법은 반구조화된 표의 복잡한 레이아웃을 정확히 이해하지 못하며, 관련 질문에 정확한 답변을 제공하지 못한다. 이러한 문제를 해결하기 위해 우리는 대규모 언어 모델을 활용한 반구조화된 표 질문 응답을 위한 트리 기반 프레임워크인 ST-Raptor를 제안한다. 먼저, 복잡한 반구조화된 표 레이아웃을 효과적으로 포착할 수 있는 구조적 모델인 계층적 수직 트리(Hierarchical Orthogonal Tree, HO-Tree)를 도입하고, 이 트리를 구성하기 위한 효율적인 알고리즘을 제안한다. 둘째, 일반적인 질문 응답(QA) 작업을 수행하도록 LLM을 안내하기 위한 기본 트리 연산 집합을 정의한다. 사용자 질문이 입력되면, ST-Raptor는 이를 더 간단한 하위 질문으로 분해하고, 해당하는 트리 연산 파이프라인을 생성하며, 연산과 표 간의 정확한 일치를 수행하여 파이프라인을 실행한다. 셋째, 전진 검증과 후진 검증을 포함하는 이중 단계 검증 메커니즘을 도입한다. 전진 검증은 실행 단계의 정확성을 확인하고, 후진 검증은 예측된 답변으로부터 원래 질의를 재구성함으로써 답변의 신뢰도를 평가한다. 성능 평가를 위해, 102개의 실제 반구조화된 표를 기반으로 한 764개의 질문을 포함하는 SSTQA 데이터셋을 제시한다. 실험 결과, ST-Raptor는 9개의 기준 모델 대비 최대 20%까지 정답 정확도에서 우수한 성능을 보였다. 코드는 다음 URL에서 공개되어 있다.