BiFormer: Vision Transformer mit Bi-Level-Routing-Attention

Als zentrales Bauelement von Vision-Transformern ist die Aufmerksamkeit ein leistungsstarkes Werkzeug zur Erfassung langreichweiter Abhängigkeiten. Allerdings bringt diese Leistung einen erheblichen Preis mit sich: Die Berechnung der paarweisen Interaktionen zwischen allen Token über alle räumlichen Positionen führt zu einem enormen Rechenaufwand und einem hohen Speicherverbrauch. Eine Reihe von Arbeiten versucht, dieses Problem zu mildern, indem sie handgefertigte und inhaltsunabhängige Sparsamkeit in die Aufmerksamkeit einbringen, beispielsweise durch Beschränkung der Aufmerksamkeitsoperation auf lokale Fenster, axiale Streifen oder dilatierte Fenster. Im Gegensatz hierzu schlagen wir eine neuartige dynamische sparsame Aufmerksamkeit mittels zweistufiger Routing-Strategie vor, die eine flexiblere und inhaltsbewusste Verteilung der Berechnungen ermöglicht. Konkret werden für eine Anfrage zunächst irrelevante Schlüssel-Wert-Paare auf großer Regionsebene herausgefiltert, gefolgt von einer feinabgestimmten Token-zu-Token-Aufmerksamkeit innerhalb der Vereinigung der verbleibenden Kandidatenregionen (d. h. der gerouteten Regionen). Wir präsentieren eine einfache, aber effektive Implementierung der vorgeschlagenen zweistufigen Routing-Aufmerksamkeit, die die Sparsamkeit nutzt, um sowohl Berechnungsaufwand als auch Speicherbedarf zu reduzieren, wobei lediglich GPU-freundliche dichte Matrixmultiplikationen verwendet werden. Auf Basis der vorgeschlagenen zweistufigen Routing-Aufmerksamkeit wird ein neuer allgemeiner Vision-Transformer, namens BiFormer, vorgestellt. Da BiFormer auf eine kleine Teilmenge relevanter Tokens auf eine abfragenadaptive Weise achtet, ohne durch andere irrelevante Tokens abgelenkt zu werden, erreicht er sowohl eine hervorragende Leistung als auch hohe rechnerische Effizienz, insbesondere bei Aufgaben der dichten Vorhersage. Empirische Ergebnisse über mehrere Aufgaben im Bereich des maschinellen Sehens – wie Bildklassifikation, Objektdetektion und semantische Segmentierung – bestätigen die Wirksamkeit unseres Ansatzes. Der Quellcode ist unter \url{https://github.com/rayleizhu/BiFormer} verfügbar.