11일 전

ToTTo: 제어형 테이블-텍스트 생성 데이터셋

Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das
ToTTo: 제어형 테이블-텍스트 생성 데이터셋
초록

우리는 위키백과 테이블과 강조된 셀들의 집합을 입력으로 받아, 한 문장의 설명을 생성하는 제어된 생성 과제를 제안하는 오픈도메인 영문 테이블-텍스트 데이터셋 ToTTo를 소개한다. 이 데이터셋은 12만 개 이상의 훈련 예제를 포함하고 있다. 생성된 타겟이 자연스럽되면서도 원본 테이블의 정보에 충실하도록 하기 위해, 애노테이터들이 위키백과에서 기존의 후보 문장을 직접 수정하는 방식의 데이터셋 구성 과정을 도입하였다. 본 연구에서는 데이터셋과 애노테이션 프로세스에 대한 체계적인 분석을 제시하며, 여러 최첨단 기준 모델들의 성능 결과도 제시한다. 기존의 방법들은 일반적으로 문장이 유창하지만, 테이블에 근거하지 않는 가짜 표현(홀루시네이션)을 자주 생성하는 경향이 있어, 본 데이터셋이 높은 정밀도를 요구하는 조건부 텍스트 생성 연구를 위한 유용한 기준 벤치마크로 활용될 수 있음을 시사한다.

ToTTo: 제어형 테이블-텍스트 생성 데이터셋 | 최신 연구 논문 | HyperAI초신경