6ヶ月前

概要

自己教師あり学習は、有用な表現を学習する上で非常に効果的であることが示されており、その成功は主に画像、音声、テキストといったデータタイプにおいて達成されている。このような成功は、データ内の空間的・時間的・意味的構造を活用したオーグメンテーション（拡張）によって実現されている。しかし、医療分野などにおいて広く用いられるテーブルデータ（表形式データ）には、このような構造が存在しない場合が多く、効果的なオーグメンテーション手法の設計が困難となり、結果としてテーブルデータにおける類似した進展が阻害されてきた。本論文では、テーブルデータの特徴量を複数のサブセットに分割することで、テーブルデータからの学習をマルチビュー表現学習の問題に変換する新しいフレームワーク「Subsetting features of Tabular data（SubTab）」を提案する。本研究では、オートエンコーダー設定においてデータの破損されたバージョンではなく、特徴量のサブセットからのデータ再構成を行うことで、より正確に潜在的な構造を捉えることができると主張する。このフレームワークにおいて、テスト時に結合表現は各サブセットの潜在変数の集約として表現される。これを「協調的推論（collaborative inference）」と呼ぶ。実験の結果、SubTabはテーブルデータ設定下でMNISTデータセットにおいて98.31%という最先端（SOTA）の性能を達成し、CNNベースのSOTAモデルと同等の性能を発揮した。さらに、他の3つの実世界データセットにおいても、既存のベースラインを大幅に上回る結果を示した。

ソースPDF