11일 전
APC와 같이 간단하게: 자기지도 학습을 통한 시계열 데이터의 누락 및 클래스 불균형 문제 극복
Fiorella Wever, T. Anderson Keller, Laura Symul, Victor Garcia

초록
실제 시간 시계열 데이터에서는 높은 수준의 누락 데이터와 강한 클래스 불균형이 동시에 나타나는 흔한 과제로, 이는 자주 병행하여 발생한다. 기존의 방법들은 이러한 문제를 별도로 다루며, 누락 정보의 영향을 완화하기 위해 데이터 생성 과정에 대해 강한 가정을 수반하는 경우가 많다. 본 연구에서는 이러한 강한 가정 없이도 누락 데이터와 클래스 불균형을 동시에 해결할 수 있는 일반적인 자기지도 학습 기법인 자동회귀 예측 코딩(Autoregressive Predictive Coding, APC)의 활용 가능성을 입증한다. 구체적으로 합성 데이터셋을 대상으로 APC를 적용한 결과, 기존의 표준 기준 모델들이 상당히 개선되었으며, 특히 누락 비율이 높고 클래스 불균형이 심한 복합 조건에서 가장 큰 성능 향상이 관측되었다. 또한, 두 개의 실제 의료 시간 시계열 데이터셋에 APC를 적용하여, 모든 설정에서 분류 성능이 향상됨을 보였으며, 최종적으로 Physionet 벤치마크에서 최고 수준의 AUPRC 성능을 달성하였다.