Perceiver IO: Eine allgemeine Architektur für strukturierte Eingaben und Ausgaben

Ein zentrales Ziel des maschinellen Lernens besteht darin, Systeme zu entwickeln, die in möglichst vielen Datenumgebungen zahlreiche Probleme lösen können. Derzeitige Architekturen lassen sich jedoch nur auf eine kleine Anzahl stereotyper Anwendungsfälle anwenden, da sie Domänen- und Aufgabenannahmen fest in die Struktur integrieren oder schlecht auf große Eingaben oder Ausgaben skalieren. In dieser Arbeit stellen wir Perceiver IO vor, eine allgemein verwendbare Architektur, die Daten aus beliebigen Kontexten verarbeiten kann und gleichzeitig linear mit der Größe der Eingaben und Ausgaben skaliert. Unser Modell erweitert den Perceiver um eine flexible Abfragemechanik, die Ausgaben unterschiedlicher Größe und Semantik ermöglicht und damit die Notwendigkeit einer aufgabenbezogenen Architektur-Engineering-Phase überflüssig macht. Die gleiche Architektur erzielt starke Ergebnisse bei Aufgaben, die sich über natürliche Sprach- und visuelle Verständnis, mehrfache Aufgaben und mehrmodale Schlussfolgerungen bis hin zu StarCraft II erstrecken. Als herausragende Ergebnisse zeigt Perceiver IO eine bessere Leistung als eine auf Transformers basierende BERT-Benchmark-Implementierung auf dem GLUE-Sprachbenchmark – trotz Wegfall der Eingabeworttokenisierung – und erreicht zudem den Stand der Technik bei der Schätzung der optischen Flussbewegung in Sintel, ohne explizite Mechanismen für multiskalare Korrespondenz zu verwenden.