Schnelle und interpretierbare nichtlokale Neuronale Netze für die Bildentrausung durch gruppen-sparse Faltungs-Wörterbuch-Lernen

Die Nichtlokalität der Selbstähnlichkeit in natürlichen Bildern ist in tiefen Lernmodellen zunehmend populär geworden. Trotz ihrer erfolgreichen Leistung bei der Bildrekonstruktion bleiben solche Modelle weitgehend uninterpretierbar aufgrund ihrer Black-Box-Konstruktion. Unsere früheren Studien haben gezeigt, dass eine interpretierbare Konstruktion eines vollständig konvolutionellen Denoisers (CDLNet) erreichbar ist, indem man einen Wörterbuchlernalgorithmus entrollt, wobei die Leistung den modernsten Black-Box-Gegenstücken entspricht. In dieser Arbeit streben wir eine interpretierbare Konstruktion eines konvolutionellen Netzes mit einem Nichtlokalitäts-Prior der Selbstähnlichkeit an, das vergleichbare Leistungen wie Black-Box-Nichtlokalitätsmodelle erzielt. Wir zeigen, dass eine solche Architektur effektiv durch das Upgrade des $\ell 1$-Sparsitäts-Priors von CDLNet zu einem gewichteten Gruppen-Sparsitäts-Prior erreicht werden kann. Aus dieser Formulierung schlagen wir eine neuartige Schiebefenster-Nichtlokalitätsoperation vor, die durch dünnbesetzte Array-Arithmetik ermöglicht wird. Neben einer wettbewerbsfähigen Leistung mit Black-Box-Nichtlokalitäts-DNNs demonstrieren wir, dass die vorgeschlagene Schiebefenster-dünnbesetzte Aufmerksamkeit Inferenzgeschwindigkeiten um mehr als ein Zehnfaches schneller als ihre Konkurrenten ermöglicht.