15일 전
언어 모델은 현실적인 표형 데이터 생성기이다.
Vadim Borisov, Kathrin Seßler, Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci

초록
표형 데이터는 가장 오래되고 널리 퍼진 데이터 형태 중 하나이다. 그러나 원본 데이터의 특성을 유지하면서 합성 샘플을 생성하는 것은 여전히 표형 데이터 분야에서 큰 도전 과제로 남아 있다. 컴퓨터 비전 분야에서 활용되는 변분 오토인코더(VAE)나 생성적 적대 신경망(GAN)과 같은 다수의 생성 모델은 표형 데이터 생성에 적응되어 왔지만, 생성적 성격을 지닌 최근의 트랜스포머 기반 대규모 언어 모델(LLM)에 대한 연구는 상대적으로 미흡한 실정이다. 본 연구에서는 이러한 문제를 해결하기 위해, 자동 회귀 생성형 LLM을 활용하여 현실감 있는 합성 표형 데이터를 생성하는 GReaT(Generation of Realistic Tabular data)를 제안한다. 또한 GReaT는 임의의 특성 하위 집합을 조건으로 설정함으로써 표형 데이터의 분포를 모델링할 수 있으며, 나머지 특성은 추가적인 부담 없이 샘플링할 수 있다. 다양한 각도에서 생성된 데이터 샘플의 타당성과 품질을 정량화하는 일련의 실험을 통해 제안된 접근법의 유효성을 입증하였다. 실험 결과, 다양한 크기와 이질적인 특성 유형을 가진 실제 및 합성 데이터셋에 걸쳐 GReaT가 최신 기술 수준의 성능을 일관되게 유지함을 확인하였다.