
要約
機械学習における画像やテキストの普及にもかかわらず、表形式データ(タブラー形式データ)はさまざまな分野で広く利用されている。既存の深層学習モデル、たとえば畳み込みニューラルネットワーク(CNN)やトランスフォーマーは優れた性能を発揮するものの、大量の前処理とパラメータチューニングを必要とし、利用のしやすさやスケーラビリティに制限がある。本研究では、構造化状態空間モデル(Structured State-Space Model, SSM)を基盤とした新しいアプローチ、MambaTabを提案する。SSMは長距離依存性を持つデータから効果的な表現を効率的に抽出する能力に優れている。MambaTabは、新たなSSMの変種であるMambaを用いて、表形式データに対するエンドツーエンドの教師あり学習を実現する。多数のベンチマークデータセット上で実証的に評価した結果、最先端のベースラインモデルと比較して、MambaTabは顕著に少ないパラメータ数で優れた性能を達成した。MambaTabの高い効率性、スケーラビリティ、汎化能力および予測精度の向上は、多様な表形式データに対応可能な軽量かつ「プラグアンドプレイ」型のソリューションとしての可能性を示しており、広範な実用応用の実現に向けた期待が寄せられている。