OmniNet: Omnidirektionale Darstellungen aus Transformers

In diesem Paper wird Omnidirectional Representations from Transformers (OmniNet) vorgestellt. Im Gegensatz zu einem strikt horizontalen Rezeptivfeld erlaubt OmniNet jedem Token, sich auf alle Tokens im gesamten Netzwerk zu beziehen. Dieser Prozess kann als eine Form extremer oder intensiver Aufmerksamkeit interpretiert werden, die das gesamte Ausmaß an Breite und Tiefe des Netzwerks abdeckt. Um dies zu erreichen, wird die omnidirektionale Aufmerksamkeit mittels eines Meta-Lerners erlernt, der grundsätzlich ein weiteres auf Selbst-Aufmerksamkeit basierendes Modell ist. Um die rechenintensiven Kosten der vollständigen Rezeptivfeld-Aufmerksamkeit zu reduzieren, nutzen wir effiziente Selbst-Aufmerksamkeits-Modelle wie kernelbasierte Ansätze (Choromanski et al.), Low-Rank-Aufmerksamkeit (Wang et al.) und/oder Big Bird (Zaheer et al.) als Meta-Lerner. Umfangreiche Experimente wurden auf autoregressiven Sprachmodellierungsaufgaben (LM1B, C4), maschineller Übersetzung, dem Long Range Arena (LRA) sowie der Bilderkennung durchgeführt. Die Ergebnisse zeigen, dass OmniNet erhebliche Verbesserungen auf diesen Aufgaben erzielt, darunter eine state-of-the-art-Leistung auf LM1B, WMT'14 En-De/En-Fr sowie dem Long Range Arena. Zudem führt die Verwendung omnidirektionaler Repräsentationen in Vision Transformers zu signifikanten Verbesserungen bei Bilderkennungsaufgaben sowohl im Few-Shot-Lern- als auch im Fine-Tuning-Szenario.