HyperAIHyperAI
vor 16 Tagen

Aufmerksamkeitsbasierte Multi-Context-Leitung für Few-Shot-Semantische Segmentierung

{Gang Yu, Pengwan Yang, Tao Hu, Chiliang Zhang, Yadong Mu, Cees G. M. Snoek}
Abstract

Few-shot Learning ist ein junges Forschungsfeld, das durch die Tatsache motiviert ist, dass traditionelle Methoden des tiefen Lernens enorme Datenmengen erfordern. Die Knappheit annotierter Daten wird in der semantischen Segmentierung besonders herausfordernd, da die pixelgenaue Annotation bei Segmentierungsaufgaben besonders aufwendig ist. Um dieses Problem anzugehen, schlagen wir ein auf Aufmerksamkeit basierendes Netzwerk mit mehrfachem Kontextleitfaden (Attention-based Multi-Context Guiding, A-MCG) vor, das aus drei Zweigen besteht: dem Support-Zweig, dem Query-Zweig und dem Merkmalsfusion-Zweig. Ein wesentlicher Unterschied von A-MCG liegt in der Integration mehrskaliger Kontextmerkmale zwischen dem Support- und dem Query-Zweig, wodurch eine präzisere Leitfunktion durch die Support-Menge ermöglicht wird. Zudem nutzen wir eine räumliche Aufmerksamkeit im Fusionszweig, um Kontextinformationen aus mehreren Skalen hervorzuheben und die Selbstüberwachung im One-shot-Lernansatz zu stärken. Zur Lösung des Fusionsproblems im Multi-shot-Lernansatz wird Conv-LSTM eingesetzt, um die sequenziellen Support-Merkmale kooperativ zu integrieren und die Endgenauigkeit zu verbessern. Unser Architektur erzielt einen Stand der Technik bei nicht gesehenen Klassen auf einer Variante des PASCAL VOC12-Datensatzes und erreicht gegenüber vorherigen Arbeiten signifikante Verbesserungen von 1,1 % und 1,4 % in der mIoU-Messung im One-shot- und Five-shot-Setting.

Aufmerksamkeitsbasierte Multi-Context-Leitung für Few-Shot-Semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI