PASTA: 문장-테이블 클로즈 사전학습을 통한 테이블 연산 인식 사실 검증

사실 확인(fact verification)은 최근 언론, 마케팅, 정책 결정 등 다양한 분야에서 많은 연구 관심을 받고 있습니다. 이는 온라인상의 허위 정보(misinformation)와 조작 정보(disinformation)가 개인의 의견을 왜곡하고 행동에 영향을 미칠 수 있기 때문입니다. 사실 확인은 일반적으로 어려운 작업이지만, 신뢰할 수 있는 정보를 포함하는 표(table)를 분석하여 많은 경우 거짓 진술(false statements)을 쉽게 반박할 수 있습니다. 따라서 표 기반 사실 확인(table-based fact verification)은 최근 중요한 연구 영역으로 부각되고 있으며 성장하고 있습니다. 그러나, 표 작업에 대한 인식을 갖춘 언어 모델(language models, LMs)을 사전 학습(pre-train)하기 위한 데이터셋이 부족하여 진전이 제한적이었습니다.이 간극을 메우기 위해 본 논문에서는 PASTA라는 새로운 최신 프레임워크를 소개합니다. PASTA는 합성 문장-표 총설 질문(sentence-table cloze questions)을 통해 사전 학습된 표 기반 사실 확인 방법입니다. 특히, 필터(Filter), 집계(Aggregation), 극값(Superlative), 비교(Comparative), 순위(Ordinal), 고유값.Unique) 등 여섯 가지 일반적인 문장-표 총설 작업(sentence-table cloze tasks)을 설계하여 이를 바탕으로 위키테이블(WikiTables)에서 120만 개의 문장-표 쌍(sentence-table pairs)으로 구성된 대규모 말뭉치(corpus)를 합성(synthesize)하였습니다. PASTA는 최근 사전 학습된 DeBERTaV3 모델을 사용하며, 우리의 말뭉치에서 추가로 사전 학습됩니다.실험 결과, PASTA는 두 개의 표 기반 사실 확인 벤치마크(TabFact 및 SEM-TAB-FACTS)에서 새로운 최고 성능(state-of-the-art performance)을 달성하였습니다. 특히 TabFact의 복잡한 세트(complex set), 즉 여러 작업(multiple operations)을 포함하는 세트에서 PASTA는 이전 최고 성능보다 4.7 포인트 높은 성능(85.6% vs. 80.9%)을 보였습니다. 또한 작은 TabFact 테스트 세트(test set)에서는 PASTA와 인간 성능(human performance) 사이의 차이가 단 1.5 포인트(90.6% vs. 92.1%)로 좁혀졌습니다.