OmniTab: 자연 데이터와 합성 데이터를 활용한 소수 샘플 테이블 기반 질문 응답 사전 학습

표의 정보는 텍스트에 중요한 보완 역할을 하며, 이로 인해 표 기반 질문 응답(QA) 시스템이 큰 가치를 지니게 됩니다. 표 처리의 본질적인 복잡성은 종종 모델 설계와 데이터 주석화 과정에 추가적인 부담을 줍니다. 본 논문에서는 최소한의 주석화 노력으로 간단한 표 기반 QA 모델을 개발하는 것을 목표로 합니다. 표 기반 QA가 질문과 표 사이의 정렬뿐만 아니라 여러 표 요소에 대한 복잡한 추론 능력을 요구한다는 사실에서 영감을 얻어, 우리는 자연적이고 합성적인 데이터를 모두 소비하여 이러한 각각의 능력을 부여하는 옴니버스 사전학습 접근법을 제안합니다. 구체적으로, 자유롭게 이용 가능한 표들을 활용하여 관련 자연 문장들과 매칭하여 마스크 기반 사전학습을 수행하고, 표에서 샘플링된 SQL을 변환하여 합성 NL 질문을 생성하여 QA 손실 함수를 사용한 사전학습을 진행합니다. 우리는 소수 샷(few-shot) 및 전체 설정(full setting)에서 광범위한 실험을 수행하였으며, 결과는 명확하게 우리의 모델 OmniTab의 우수성을 입증하였습니다. 최고의 다중 작업 접근법은 128샷 설정과 전체 설정에서 각각 절대적으로 16.2%와 2.7%의 성능 향상을 달성하였으며, WikiTableQuestions에서 새로운 최신 기준(state-of-the-art)을 수립하였습니다. 상세한 아블레이션(ablation) 및 분석은 자연적이고 합성적인 데이터의 서로 다른 특성을 밝혀내며, 옴니버스 사전학습의 미래 방향성을 제시합니다. 코드, 사전학습 데이터 및 사전학습된 모델은 https://github.com/jzbjyb/OmniTab에서 제공됩니다.