HyperAIHyperAI

Command Palette

Search for a command to run...

SubTab: テーブルデータの部分集合化による自己教師付き表現学習

Talip Ucar Ehsan Hajiramezanali Lindsay Edwards

概要

自己教師あり学習は、有用な表現を学習する上で非常に効果的であることが示されており、その成功は主に画像、音声、テキストといったデータタイプにおいて達成されている。このような成功は、データ内の空間的・時間的・意味的構造を活用したオーグメンテーション(拡張)によって実現されている。しかし、医療分野などにおいて広く用いられるテーブルデータ(表形式データ)には、このような構造が存在しない場合が多く、効果的なオーグメンテーション手法の設計が困難となり、結果としてテーブルデータにおける類似した進展が阻害されてきた。本論文では、テーブルデータの特徴量を複数のサブセットに分割することで、テーブルデータからの学習をマルチビュー表現学習の問題に変換する新しいフレームワーク「Subsetting features of Tabular data(SubTab)」を提案する。本研究では、オートエンコーダー設定においてデータの破損されたバージョンではなく、特徴量のサブセットからのデータ再構成を行うことで、より正確に潜在的な構造を捉えることができると主張する。このフレームワークにおいて、テスト時に結合表現は各サブセットの潜在変数の集約として表現される。これを「協調的推論(collaborative inference)」と呼ぶ。実験の結果、SubTabはテーブルデータ設定下でMNISTデータセットにおいて98.31%という最先端(SOTA)の性能を達成し、CNNベースのSOTAモデルと同等の性能を発揮した。さらに、他の3つの実世界データセットにおいても、既存のベースラインを大幅に上回る結果を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています