11일 전
다변량 시계열 데이터 보간을 위한 생성적 적대 신경망
{Yonghong Luo, Yuan Xiaojie, Jun Xu, Ying Zhang, Xiangrui Cai}

초록
다변량 시계열 데이터는 일반적으로 많은 수의 결측치를 포함하고 있으며, 이는 고급 분석 기법의 적용을 방해한다. 기존의 결측치 처리 방식으로는 평균/영값 대체, 사례 제거, 행렬 분해 기반 대체 등이 있으나, 이러한 방법들은 다변량 시계열 데이터의 시간적 종속성과 복잡한 분포 특성을 모델링하는 데 한계가 있다. 본 논문에서는 결측치 대체 문제를 데이터 생성 문제로 간주한다. 이미지 생성 분야에서 성공을 거둔 생성적 적대 신경망(GAN)의 아이디어를 참고하여, 다변량 시계열 데이터셋의 전반적인 분포를 GAN을 통해 학습하고, 이를 활용해 각 샘플의 결측치를 생성하는 방식을 제안한다. 이미지 데이터와 달리 시계열 데이터는 데이터 기록 과정의 특성상 자주 불완전한 편이다. 따라서 불완전한 시계열 데이터의 시간적 비정규성(이상성)을 모델링하기 위해 수정된 게이트 순환 단위(Gate Recurrent Unit, GRU)를 GAN에 도입하였다. 두 개의 다변량 시계열 데이터셋에 대한 실험 결과, 제안하는 모델이 기존 기준 모델들에 비해 대체 정확도에서 우수한 성능을 보였다. 또한, 대체된 데이터를 활용한 간단한 모델이 예측 과제에서 최첨단 수준의 성능을 달성함을 보여주며, 본 모델이 하류 응용 분야에서 실질적인 이점을 제공함을 입증하였다.