HyperAIHyperAI
vor 13 Tagen

Transformer-basierte Aufmerksamkeitsnetzwerke für kontinuierliche pixelweise Vorhersagen

Guanglei Yang, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci
Transformer-basierte Aufmerksamkeitsnetzwerke für kontinuierliche pixelweise Vorhersagen
Abstract

Obwohl Faltungsneuronale Netze erheblichen Einfluss auf verschiedene Aufgaben im Bereich des maschinellen Sehens gezeigt haben, weisen sie im Allgemeinen Einschränkungen bei der expliziten Modellierung langreichweitiger Abhängigkeiten auf, bedingt durch die inhärente Lokalität der Faltungsoperation. Ursprünglich für Sprachverarbeitungsaufgaben entwickelt, sind Transformers als alternative Architekturen hervorgetreten, die über eine natürliche globale Selbst-Attention-Mechanismen verfügen, um langreichweitige Abhängigkeiten zu erfassen. In diesem Paper stellen wir TransDepth vor, eine Architektur, die sowohl von der Stärke faltungsbasierter neuronaler Netze als auch von Transformers profitiert. Um zu verhindern, dass das Netzwerk durch die Integration von Transformers seine Fähigkeit zur Erfassung lokaler Details verliert, schlagen wir einen neuartigen Decoder vor, der auf Aufmerksamkeitsmechanismen basierend auf Gattern beruht. Besonders hervorzuheben ist, dass dies die erste Arbeit ist, die Transformers auf pixelweise Vorhersageprobleme mit kontinuierlichen Labels anwendet (d. h. monokulare Tiefenschätzung und Schätzung von Oberflächennormalen). Umfangreiche Experimente zeigen, dass das vorgeschlagene TransDepth auf drei anspruchsvollen Datensätzen die derzeit beste Leistung erzielt. Unser Code ist verfügbar unter: https://github.com/ygjwd12345/TransDepth.

Transformer-basierte Aufmerksamkeitsnetzwerke für kontinuierliche pixelweise Vorhersagen | Neueste Forschungsarbeiten | HyperAI