Vision Transformers für dichte Vorhersagen

Wir stellen dichte Vision-Transformer vor, eine Architektur, die Vision-Transformer anstelle von Faltungsnetzwerken als Backbone für Aufgaben der dichten Vorhersage nutzt. Wir sammeln Tokens aus verschiedenen Stufen des Vision-Transformers zu bildähnlichen Darstellungen in unterschiedlichen Auflösungen und kombinieren diese schrittweise mittels eines Faltungsdetektors zu Vorhersagen in voller Auflösung. Der Transformer-Backbone verarbeitet Darstellungen mit konstanter und relativ hoher Auflösung und verfügt in jeder Stufe über ein globales Empfindungsfeld. Diese Eigenschaften ermöglichen es dem dichten Vision-Transformer, feinkörnigere und global kohärentere Vorhersagen zu liefern als vollständig faltungsorientierte Netzwerke. Unsere Experimente zeigen, dass diese Architektur erhebliche Verbesserungen bei Aufgaben der dichten Vorhersage erzielt, insbesondere wenn große Mengen an Trainingsdaten zur Verfügung stehen. Bei der monokularen Tiefenschätzung erreichen wir eine Verbesserung der relativen Leistung um bis zu 28 % gegenüber einem aktuellen Stand der Technik, basierend auf einem vollständig faltungsorientierten Netzwerk. Bei der semantischen Segmentierung erreicht der dichte Vision-Transformer auf ADE20K einen neuen Stand der Technik mit 49,02 % mIoU. Zudem zeigen wir, dass die Architektur auch auf kleineren Datensätzen wie NYUv2, KITTI und Pascal Context feinabgestimmt werden kann, wobei sie dort ebenfalls den neuen Stand der Technik erreicht. Unsere Modelle sind unter https://github.com/intel-isl/DPT verfügbar.