17일 전

CABINET: 테이블 질문 응답을 위한 콘텐츠 관련성 기반 노이즈 제거

Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumit Bhatia, Yaman Kumar, Balaji Krishnamurthy
CABINET: 테이블 질문 응답을 위한 콘텐츠 관련성 기반 노이즈 제거
초록

대규모 언어 모델(LLM)의 표 이해 능력은 표에 대한 질문-응답(QA) 작업을 통해 광범위하게 연구되어 왔다. 일반적으로 주어진 질문에 대한 답변을 도출하기 위해 전체 표의 일부만이 관련이 있다. 나머지 비관련 부분은 노이즈로 작용하며, 정보를 방해하는 요소가 되어, LLM이 노이즈에 취약한 특성으로 인해 최적의 성능을 발휘하지 못하게 된다. 이를 완화하기 위해 우리는 CABINET(Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering)을 제안한다. CABINET은 불필요한 정보를 억제함으로써 LLM이 관련 표 데이터에 집중할 수 있도록 하는 프레임워크이다. CABINET은 질문-응답 LLM(QA LLM)과 함께 차별적으로 학습되는 비지도 관련성 점수기(Unsupervised Relevance Scorer, URS)를 포함하며, 입력된 질문에 대한 관련성에 따라 표 내용의 중요도를 가중한 후 QA LLM에 전달한다. 또한 관련성 점수기의 성능을 보완하기 위해, 질문과 관련된 행과 열의 기준을 설명하는 파싱 문장을 생성하고, 해당 표 셀의 내용을 강조하는 약한 지도 학습 모듈을 활용한다. CABINET은 다양한 표 기반 LLM 기준 모델과 GPT3 기반의 컨텍스트 내 학습 방법을 크게 능가하며, 노이즈에 더 강건하고, 다양한 크기의 표에서도 우수한 성능을 유지하며, WikiTQ, FeTaQA, WikiSQL 데이터셋에서 새로운 최고 성능(SoTA)을 달성한다. 코드와 데이터셋은 https://github.com/Sohanpatnaik106/CABINET_QA 에 공개한다.