SubTab: Subsetting von Merkmalen tabellarischer Daten für selbstüberwachtes Darstellungslernen

Selbstüberwachtes Lernen hat sich als äußerst effektiv bei der Lernung nützlicher Darstellungen erwiesen, wobei jedoch der größte Teil des Erfolgs in Datentypen wie Bildern, Audio und Text erzielt wurde. Dieser Erfolg beruht hauptsächlich auf der Nutzung räumlicher, zeitlicher oder semantischer Strukturen in den Daten durch Datenaugmentation. In tabellarischen Datensätzen, die häufig in Bereichen wie der Gesundheitsversorgung verwendet werden, existiert eine solche Struktur jedoch oft nicht, was die Entwicklung einer wirksamen Augmentationsmethode erschwert und eine ähnliche Fortschrittsentwicklung im Bereich tabellarischer Daten behindert. In diesem Artikel stellen wir einen neuen Ansatz vor, Subsetting features of Tabular data (SubTab), der die Aufgabe des Lernens aus tabellarischen Daten in ein Multi-View-Representation-Learning-Problem transformiert, indem die Eingabefeatures in mehrere Teilmengen aufgeteilt werden. Wir argumentieren, dass die Rekonstruktion der Daten aus einer Teilmenge ihrer Merkmale – anstelle einer verfälschten Version im Rahmen eines Autoencoders – eine bessere Erfassung der zugrundeliegenden latente Darstellung ermöglicht. In diesem Rahmen kann die gemeinsame Darstellung zur Testzeit als Aggregation der latenten Variablen der Teilmengen ausgedrückt werden, was wir kollaborative Inferenz nennen. Unsere Experimente zeigen, dass SubTab eine state-of-the-art (SOTA)-Leistung von 98,31 % auf dem MNIST-Datensatz im tabellarischen Setting erreicht, die mit den besten CNN-basierten Modellen vergleichbar ist, und bestehende Baselines auf drei weiteren realen Datensätzen signifikant übertrifft.