15일 전

이진 확산을 이용한 표형 데이터 생성

Vitaliy Kinakh, Slava Voloshynovskiy
이진 확산을 이용한 표형 데이터 생성
초록

합성 표 형 데이터 생성은 머신러닝에서 특히 실제 데이터가 제한적이거나 민감한 경우에 매우 중요하다. 기존의 생성 모델들은 표 형 데이터의 고유한 특성—예를 들어 혼합된 데이터 유형과 다양한 분포—로 인해 여러 도전에 직면해 있으며, 복잡한 전처리 과정이나 대규모 사전 학습 모델을 필요로 한다. 본 논문에서는 어떤 표 형 데이터도 고정된 크기의 이진 표현으로 변환할 수 있는 새로운 손실 없는 이진 변환 방법을 제안하며, 이진 데이터 전용으로 특별히 설계된 새로운 생성 모델인 Binary Diffusion을 소개한다. Binary Diffusion은 노이즈 추가 및 제거에 간단한 XOR 연산을 활용하고, 학습에는 이진 교차 엔트로피 손실을 사용한다. 제안하는 방법은 광범위한 전처리 과정, 복잡한 노이즈 파라미터 조정, 대규모 데이터셋에 대한 사전 학습이 필요 없도록 한다. 우리는 여러 유명한 표 형 벤치마크 데이터셋에서 모델을 평가하여, Binary Diffusion이 Travel, Adult Income, Diabetes 데이터셋에서 기존 최고 성능 모델들을 능가함을 입증하였으며, 크기가 훨씬 작다는 점에서 효율성도 우수함을 확인하였다.

이진 확산을 이용한 표형 데이터 생성 | 최신 연구 논문 | HyperAI초신경