11日前
APCのように簡単:自己教師学習を用いた時系列データにおける欠損データおよびクラス不均衡の克服
Fiorella Wever, T. Anderson Keller, Laura Symul, Victor Garcia

要約
欠損データの高レベルと強いクラス不均衡は、現実世界の時系列データにおいてしばしば同時に現れる普遍的な課題である。従来の手法はこれらの問題を別々に扱っており、欠損情報の影響を軽減するため、しばしばデータ生成プロセスに関する強い仮定を設けてきた。本研究では、そのような強い仮定を必要とせずに、欠損データとクラス不均衡の両方を同時に克服できる一般的な自己教師学習手法、すなわち自己回帰予測符号化(Autoregressive Predictive Coding, APC)の有効性を示す。具体的には、合成データセット上で、標準的なベースライン手法にAPCを導入することで、特に欠損率が高く、クラス不均衡が著しい複合的な設定において顕著な性能向上が達成されることを示した。さらに、2つの実世界の医療時系列データセットにAPCを適用した結果、すべての設定において分類性能が向上し、最終的にPhysioNetベンチマークにおいて最先端のAUPRC(Area Under the Precision-Recall Curve)スコアを達成した。