16일 전

SubTab: 표본 데이터의 하위 특징을 활용한 자기지도 학습을 위한 표현 학습

Talip Ucar, Ehsan Hajiramezanali, Lindsay Edwards
SubTab: 표본 데이터의 하위 특징을 활용한 자기지도 학습을 위한 표현 학습
초록

자기지도 학습은 유용한 표현을 학습하는 데 매우 효과적임이 입증되었으며, 특히 이미지, 음성, 텍스트와 같은 데이터 유형에서 높은 성과를 거두었다. 이러한 성공은 주로 데이터 내에 존재하는 공간적, 시계적, 또는 의미적 구조를 증강 기법을 통해 활용함으로써 가능해졌다. 그러나 의료 등 다양한 분야에서 흔히 사용되는 표형 데이터셋(tabular datasets)에는 이러한 구조가 존재하지 않을 수 있어, 효과적인 증강 방법을 설계하는 데 어려움이 있으며, 이로 인해 표형 데이터 환경에서도 유사한 발전이 지연되고 있다. 본 논문에서는 표형 데이터의 특성을 고려하여, 입력 특성을 여러 하위 집합으로 나누어 표형 데이터로부터의 학습을 다중 시각 표현 학습 문제로 변환하는 새로운 프레임워크인 Subsetting features of Tabular data (SubTab)를 제안한다. 우리는 자동인코더 환경에서 데이터의 손상된 버전이 아닌, 특성의 부분 집합으로부터 데이터를 재구성하는 방식이 더 나은 잠재 표현을 포착할 수 있다고 주장한다. 본 프레임워크에서는 테스트 시점에 하위 집합들의 잠재 변수들의 집계를 통해 공동 표현(joint representation)을 표현하며, 이를 '협업 추론(collaborative inference)'이라고 정의한다. 실험 결과, SubTab은 표형 데이터 환경에서 MNIST 데이터셋에서 98.31%의 최신 기준(SOTA) 성능을 달성하여 CNN 기반의 최신 모델과 동등한 성능을 보였으며, 다른 세 가지 실세계 데이터셋에서도 기존 베이스라인 모델을 크게 앞서는 성능을 기록하였다.

SubTab: 표본 데이터의 하위 특징을 활용한 자기지도 학습을 위한 표현 학습 | 최신 연구 논문 | HyperAI초신경