Orion-MSP: Multi-Scale Sparse Attention für tabellenbasiertes In-Context-Lernen
Mohamed Bouadi Pratinav Seth Aditya Tanna Vinay Kumar Sankarapu

Abstract
Tabellarische Daten bleiben das vorherrschende Format für reale Anwendungen. Dennoch ist die Entwicklung effektiver neuronaler Modelle für tabellarische Daten aufgrund der heterogenen Merkmaltypen und der komplexen Wechselwirkungen auf mehreren Skalen weiterhin herausfordernd. Kürzliche Fortschritte im Bereich des tabellarischen In-Context-Lernens (ICL), wie beispielsweise TabPFN und TabICL, haben Leistungen auf State-of-the-Art-Niveau erzielt, die denen von Gradient-Boosted Trees (GBTs) nahekommen, ohne dass eine auf die jeweilige Aufgabe abgestimmte Feinabstimmung erforderlich ist. Allerdings weisen aktuelle Architekturen entscheidende Einschränkungen auf: (1) die Verarbeitung auf einer einzigen Skala, die hierarchische Abhängigkeiten übersehen kann; (2) dichte Aufmerksamkeit mit quadratischer Skalierung in Bezug auf die Spaltenanzahl der Tabelle; und (3) streng sequenzielle Verarbeitung der Komponenten, die eine iterative Verbesserung der Repräsentation und den Austausch von Informationen zwischen Komponenten verhindert. Um diese Herausforderungen zu bewältigen, stellen wir Orion-MSP vor, eine Architektur für tabellarisches ICL mit drei zentralen Innovationen: (1) mehrskalige Verarbeitung zur Erfassung hierarchischer Merkmalswechselwirkungen; (2) block-sparse Aufmerksamkeit, die Fenster-, globale und zufällige Muster kombiniert, um skalierbare Effizienz und langreichweitige Verbindungen zu gewährleisten; und (3) ein Perceiver-ähnliches Gedächtnis, das einen sicheren bidirektionalen Informationsfluss zwischen Komponenten ermöglicht. Auf einer Vielzahl verschiedener Benchmarks erreicht Orion-MSP Leistungen, die dem Stand der Technik entsprechen oder ihn übertreffen, und skaliert effizient auf hochdimensionale Tabellen, wodurch ein neuer Standard für effizientes tabellarisches In-Context-Lernen etabliert wird. Das Modell ist öffentlich unter https://github.com/Lexsi-Labs/Orion-MSP verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.