SSTQA 반구조화 표형 질문 답변 데이터 세트
SSTQA는 상하이 교통대학교, 사이먼 프레이저 대학교, 칭화대학교 및 기타 기관에서 2025년에 발표한 반구조화 테이블 질의응답 과제를 위한 벤치마크 데이터셋입니다. 관련 논문 결과는 다음과 같습니다.ST-Raptor: LLM 기반 반구조화 테이블 질의응답"는 실제 테이블의 복잡한 레이아웃(병합된 셀, 계층적 헤더, 다중 레벨 중첩 등)에 직면했을 때 대규모 언어 모델과 테이블 질의응답 시스템의 이해 및 답변 능력을 테스트하는 것을 목표로 합니다.
이 데이터셋은 102개의 복잡한 실제 표와 764개의 해당 질문을 포함하고 있으며, 19개의 대표적인 실제 응용 시나리오를 다룹니다. 표의 특징은 중첩된 셀, 다단계 헤더, 불규칙적인 레이아웃을 포함하여 실제 문제의 구조적 복잡성을 완벽하게 반영합니다. 질문-답변 쌍은 자동 생성과 수동 검토를 결합하여 구성되며, 쉬움, 보통, 어려움의 세 가지 난이도로 분류됩니다. 이 데이터셋은 직접 검색부터 복잡한 추론까지 다양한 과제를 다루므로 다양하고 도전적인 과제를 보장합니다.
이 데이터셋은 기존 반정형 데이터셋의 문제점인 소규모, 단순한 구조, 실제 애플리케이션과의 단절 문제를 해결합니다. 복잡한 구조, 풍부한 시나리오, 명확한 난이도, 그리고 고품질 주석이라는 특징을 가지고 있습니다. 대규모 멀티모달 모델과 테이블 질의응답 시스템의 학습 및 평가에 적합하며, 테이블 이해 및 지능형 애플리케이션 개발을 촉진하는 중요한 벤치마크입니다.