Pixel Difference Networks für eine effiziente Kantenentdeckung

Kürzlich konnten tiefe Faltungsneuronale Netze (CNNs) menschliche Leistungsfähigkeit bei der Kantenentdeckung erreichen, dank ihrer reichen und abstrakten Fähigkeit zur Darstellung von Kanten. Allerdings wird diese hohe Leistung durch einen großen vortrainierten CNN-Backbone erzielt, was erhebliche Speicher- und Energiekosten verursacht. Darüber hinaus ist es bemerkenswert, dass die bisherigen Erkenntnisse aus traditionellen Kantenendetektoren – wie Canny, Sobel und LBP – in der rasant entwickelten Ära des tiefen Lernens nur selten untersucht wurden. Um diese Probleme anzugehen, schlagen wir eine einfache, leichtgewichtige und dennoch effektive Architektur namens Pixel-Differenz-Netzwerk (PiDiNet) für eine effiziente Kantenentdeckung vor. Um die Wirksamkeit von PiDiNet zu demonstrieren, führen wir umfangreiche Experimente auf den Datensätzen BSDS500, NYUD und Multicue durch und zeigen seine hohe Effizienz bei Training und Inferenz. Überraschenderweise erreicht PiDiNet, wenn es ausschließlich auf den Datensätzen BSDS500 und VOC von Grund auf trainiert wird, die bisherige Aufzeichnung menschlicher Wahrnehmung (0,807 gegenüber 0,803 im ODS-F-Maß) auf dem BSDS500-Datensatz bei 100 FPS und weniger als 1 Mio. Parametern. Eine schnellere Variante von PiDiNet mit weniger als 0,1 Mio. Parametern erreicht dennoch vergleichbare Ergebnisse im Vergleich zu den aktuellen State-of-the-Art-Methoden bei 200 FPS. Die Ergebnisse auf den Datensätzen NYUD und Multicue zeigen ähnliche Beobachtungen. Der Quellcode ist unter https://github.com/zhuoinoulu/pidinet verfügbar.