2달 전

시간 데이터 스트림에서 결측치 추정을 위한 다방향 순환 신경망의 활용

Jinsung Yoon; William R. Zame; Mihaela van der Schaar
시간 데이터 스트림에서 결측치 추정을 위한 다방향 순환 신경망의 활용
초록

결측 데이터는 보편적인 문제입니다. 특히 의료 환경에서는 다양한 측정치가 서로 다른 시간에, 그리고 종종 불규칙한 간격으로 수집되기 때문에 이 문제는 더욱 어려워집니다. 이러한 결측 측정치의 정확한 추정은 진단, 예후 및 치료를 포함하여 여러 이유로 중요합니다. 기존 방법들은 데이터 스트림 내에서 보간하거나 데이터 스트림 간에서 대입하는 방식으로 이 추정 문제를 해결하지만(이 두 방법 모두 중요한 정보를 무시합니다), 또는 데이터의 시계열 특성을 무시하고 데이터 생성 과정이나 결측 패턴에 대한 강한 가정을 부과하는 방법(이는 특히 의료 데이터에 문제가 됩니다)을 사용합니다. 우리는 이러한 문제들을 해결하기 위해 새로운 접근 방식을 제안하며, 이를 다방향 순환 신경망(Multi-directional Recurrent Neural Network, M-RNN)이라는 새로운 딥러닝 아키텍처 기반으로 설계하였습니다. 이 접근 방식은 데이터 스트림 내에서 보간하고, 데이터 스트림 간에서 대입하는 기능을 모두 수행합니다.우리의 접근 방식의 효과를 입증하기 위해 5개의 실제 의료 데이터셋에 적용하였습니다. 이 결과, 스플라인 및 세제곱 보간법(Spline and Cubic Interpolations), MICE, MissForest, 행렬 완성(matrix completion) 및 여러 RNN 방법 등 11개의 최신 벤치마크와 비교하여 결측 측정치 추정에서 크게 개선된 성능을 제공함을 확인하였습니다. 평균 제곱근 오차(Root Mean Square Error) 개선률은 일반적으로 35% - 50% 사이였습니다. 같은 5개의 데이터셋을 기반으로 한 추가 실험에서도 우리의 방법이 제공하는 개선이 매우 견고함을 입증하였습니다.

시간 데이터 스트림에서 결측치 추정을 위한 다방향 순환 신경망의 활용 | 최신 연구 논문 | HyperAI초신경