HyperAI超神経
1ヶ月前

TabSTAR: セマンティックにターゲットを意識した表形式モデルの基礎

Alan Arazi, Eilam Shapira, Roi Reichart
TabSTAR: セマンティックにターゲットを意識した表形式モデルの基礎
要約

深層学習は多くの分野で著しい成功を収めてきましたが、表形式の学習タスクでは歴史的にパフォーマンスが低く、勾配ブースティング決定木(GBDT)が依然として主導しています。しかし、最近の進歩により、実世界の知識を利用し、特にデータに自由テキストが含まれる場合に多様なデータセット間で汎化できる表形式の基盤モデル(Tabular Foundation Models)への道が開かれています。言語モデルの機能を表形式のタスクに組み込むことはこれまで研究されてきましたが、既存の方法の多くは静的な、目標非依存的なテキスト表現を使用しており、その効果性に制限があります。ここでは、TabSTAR: セマンティックに目標依存的な表現を持つ基盤表形式モデルを紹介します。TabSTARは、テキスト特徴を含む表形式データでの転移学習を可能にする設計となっており、データセット固有のパラメータを必要としないアーキテクチャを持っています。事前学習済みのテキストエンコーダーを解凍し、ターゲットトークンを受け入れることで、モデルが必要とするコンテクストを提供し、タスク固有の埋め込みを学習させることができます。TabSTARは、既知の分類タスクベンチマークにおいて中規模および大規模データセットで最先端のパフォーマンスを達成しており、事前学習フェーズではデータセット数に対するスケーリング法則が観察され、さらなる性能向上への道を開いています。