HyperAIHyperAI
il y a 16 jours

Sous-onglet : Sous-ensemble de fonctionnalités pour les données tabulaires en apprentissage par auto-entraînement

Talip Ucar, Ehsan Hajiramezanali, Lindsay Edwards
Sous-onglet : Sous-ensemble de fonctionnalités pour les données tabulaires en apprentissage par auto-entraînement
Résumé

L’apprentissage auto-supervisé s’est révélé extrêmement efficace pour apprendre des représentations utiles, et son succès est principalement observé sur des types de données tels que les images, l’audio et le texte. Ce succès repose en grande partie sur l’exploitation de structures spatiales, temporelles ou sémantiques présentes dans les données, grâce à des techniques d’augmentation. Toutefois, de telles structures peuvent être absentes dans les jeux de données tabulaires couramment utilisés dans des domaines comme la santé, ce qui rend difficile la conception d’une méthode d’augmentation efficace, freinant ainsi un progrès similaire dans le contexte des données tabulaires. Dans cet article, nous proposons un nouveau cadre, appelé Subsetting features of Tabular data (SubTab), qui transforme la tâche d’apprentissage à partir de données tabulaires en un problème d’apprentissage de représentations multi-vues en divisant les caractéristiques d’entrée en plusieurs sous-ensembles. Nous soutenons qu’il est plus pertinent de reconstruire les données à partir d’un sous-ensemble de leurs caractéristiques, plutôt que de leur version altérée, dans un cadre d’autoencodeur, afin de mieux capturer leur représentation latente sous-jacente. Dans ce cadre, la représentation conjointe peut être exprimée comme l’agrégation des variables latentes des sous-ensembles au moment de l’évaluation, ce que nous désignons par inférence collaborative. Nos expériences montrent que SubTab atteint une performance de pointe (SOTA) de 98,31 % sur MNIST dans un cadre tabulaire, équivalente aux modèles SOTA basés sur les réseaux de neurones convolutifs (CNN), et dépasse significativement les modèles existants sur trois autres jeux de données réels.

Sous-onglet : Sous-ensemble de fonctionnalités pour les données tabulaires en apprentissage par auto-entraînement | Articles de recherche récents | HyperAI