Liniensegmenterkennung mit Transformatoren ohne Kanten

In dieser Arbeit präsentieren wir einen gemeinsamen End-to-End-Liniensegmentdetektionsalgorithmus, der auf Transformers basiert und weder nachbearbeitungs- noch heuristikgesteuerte Zwischenschritte (Kanten-/Kreuzungserkennung, Regionserkennung) erfordert. Unsere Methode, die als LinE segment TRansformers (LETR) bezeichnet wird, nutzt die Vorteile von tokenisierten Abfragen, einem Selbst-Aufmerksamkeitsmechanismus und einer Codierer-DeCodierer-Strategie innerhalb von Transformers, indem sie standardmäßige heuristische Designs für den Kantelementenerkennungsprozess und die perzeptive Gruppierung vermeidet. Wir versehen die Transformers mit einer mehrskaligen Codierer/DeCodierer-Strategie, um unter Verwendung eines direkten Endpunktabstandsverlusts feingranulare Liniensegmenterkennung durchzuführen. Dieser Verlustterm ist besonders geeignet für die Erkennung geometrischer Strukturen wie Liniensegmente, die sich nicht leicht durch Standard-Bounding-Box-Darstellungen erfassen lassen. Die Transformers lernen durch Schichten des Selbst-Aufmerksamkeitsmechanismus, die Liniensegmente schrittweise zu verfeinern. In unseren Experimenten zeigen wir Stand-of-the-Art-Ergebnisse auf den Benchmarks Wireframe und YorkUrban.