MATE: Multi-view Attention für die Effizienz von Table Transformers

Diese Arbeit präsentiert eine sparsam-attentive Transformer-Architektur zur Modellierung von Dokumenten, die große Tabellen enthalten. Tabellen sind im Web allgegenwärtig und enthalten reichhaltige Informationen. Allerdings weisen mehr als 20 % der relationalen Tabellen im Web 20 oder mehr Zeilen auf (Cafarella et al., 2008), und solche großen Tabellen stellen eine Herausforderung für aktuelle Transformer-Modelle dar, die typischerweise auf 512 Token beschränkt sind. Hier stellen wir MATE vor, eine neuartige Transformer-Architektur, die speziell zur Modellierung der Struktur webbasierter Tabellen entwickelt wurde. MATE nutzt sparsame Aufmerksamkeit auf eine Weise, die es den Aufmerksamkeitsköpfen ermöglicht, effizient entweder Zeilen oder Spalten einer Tabelle zu betrachten. Diese Architektur skaliert linear bezüglich Geschwindigkeit und Speicherbedarf und kann Dokumente mit mehr als 8000 Token bereits mit aktuellen Beschleunigern verarbeiten. Zudem besitzt MATE eine angemessenere induktive Voreingenommenheit für tabellarische Daten und erreicht eine neue State-of-the-Art-Leistung auf drei Datensätzen zur Tabellen-Reasoning-Aufgabe. Für HybridQA (Chen et al., 2020b), einen Datensatz, der große Dokumente mit Tabellen beinhaltet, verbessern wir das beste vorherige Ergebnis um 19 Punkte.