LSDNet: Trainierbare Modifikation des LSD-Algorithmus für die Echtzeit-Erkennung von Liniensegmenten

Bis heute wird die beste Genauigkeit bei der Erkennung von Liniensegmenten (LSD) durch Algorithmen erreicht, die auf konvolutionellen neuronalen Netzen – CNNs – basieren. Leider nutzen diese Methoden tiefe, ressourcenintensive Netzwerke und sind langsamer als traditionelle modellbasierte Detektoren. In dieser Arbeit entwickeln wir einen genauen und dennoch schnellen CNN-basierten Detektor, LSDNet, indem wir ein leichtgewichtiges CNN in einen klassischen LSD-Detektor integrieren. Insbesondere ersetzen wir den ersten Schritt des ursprünglichen LSD-Algorithmus – die Erstellung einer Hitmap von Liniensegmenten und eines Tangentialfeldes aus rohen Bildgradienten – durch ein leichtgewichtiges CNN, das in der Lage ist, komplexere und reichhaltigere Merkmale zu berechnen. Der zweite Teil des LSD-Algorithmus wird mit nur geringfügigen Modifikationen verwendet. Im Vergleich zu mehreren modernen Liniensegmentdetektoren auf dem Standard-Wireframe-Datensatz liefert der vorgeschlagene LSDNet die höchste Geschwindigkeit (unter allen CNN-basierten Detektoren) von 214 FPS bei einer wettbewerbsfähigen Genauigkeit von 78 Fh. Obwohl die beste gemeldete Genauigkeit 83 Fh bei 33 FPS beträgt, vermuten wir, dass der beobachtete Genauigkeitsunterschied durch Annotationfehler verursacht wird und dass der tatsächliche Unterschied erheblich geringer ist. Wir weisen systematische Inkonsistenzen in den Annotationen populärer Linienerkennungsbenchmarks – Wireframe und York Urban – nach, reannotieren sorgfältig eine Teilmenge der Bilder und zeigen (i) dass existierende Detektoren ohne erneutes Training eine verbesserte Qualität auf aktualisierten Annotationen aufweisen, was darauf hindeutet, dass neue Annotationen besser mit dem Konzept korrekter Liniensegmenterkennung übereinstimmen; (ii) dass der Genauigkeitsunterschied zwischen unserem Detektor und anderen auf vernachlässigbare 0,2 Fh schrumpft, wobei unsere Methode die schnellste ist.