Quantisierte dicht verbundene U-Netze für effiziente Landmarke-Lokalisierung

In dieser Arbeit schlagen wir quantisierte dicht verbundene U-Netze für eine effiziente visuelle Landmarkenlokalisation vor. Das Konzept besteht darin, dass Merkmale gleicher semantischer Bedeutung global über die gestapelten U-Netze wiederverwendet werden. Diese dichte Verbindung verbessert den Informationsfluss erheblich und führt zu einer erhöhten Lokalisierungsgenauigkeit. Allerdings würde ein unveränderter dichter Entwurf in Training und Test kritische Effizienzprobleme verursachen. Um dieses Problem zu lösen, schlagen wir zunächst eine order-K-dichte Verbindung (order-K dense connectivity) vor, um lange Abkürzungen zu entfernen; danach nutzen wir eine speichereffiziente Implementierung, um die Trainings-effizienz erheblich zu steigern, und untersuchen eine iterative Verfeinerung, die die Modellgröße möglicherweise halbieren könnte. Schließlich, um den Speicherverbrauch und die hohe Präzision sowohl im Training als auch im Test zu reduzieren, quantisieren wir Gewichte, Eingaben und Gradienten unseres Lokalisierungsnetzes auf Zahlen mit geringer Bitbreite. Wir validieren unseren Ansatz in zwei Aufgaben: der Schätzung von menschlichen Poses und der Gesichtsausrichtung. Die Ergebnisse zeigen, dass unser Ansatz einen Stand-der-Technik-Lokalisierungsgenauigkeit erreicht, dabei jedoch etwa 70 % weniger Parameter verwendet, das Modellvolumen um etwa 98 % reduziert und den Trainings-speicherbedarf um etwa 75 % einspart im Vergleich zu anderen Benchmark-Lokalisatoren. Der Code ist unter https://github.com/zhiqiangdon/CU-Net verfügbar.