Pixelweise Aufmerksamkeitssteuerung für sparsame Pixelbeschriftung

Um eine sparsame Inferenz bei pixelbasierten Klassifizierungsaufgaben mit begrenztem Rechenbudget zu erreichen, schlagen wir eine \emph{Pixelweise Aufmerksamkeitssteuerungseinheit} (\emph{PAG}) vor, die lernt, eine Teilmenge von räumlichen Positionen in jeder Schicht eines tiefen Faltungsnetzes selektiv zu verarbeiten. Die PAG ist ein generischer, architekturunabhängiger und problemspeziesmechanismus, der einfach in ein vorhandenes Modell eingefügt und durch Feinabstimmung verwendet werden kann. Wir nutzen die PAG auf zwei Arten: 1) das Lernen von räumlich variierenden Poolingfeldern, die die Modellleistung verbessern, ohne den zusätzlichen Rechenaufwand von mehrskaligem Pooling zu erzeugen, und 2) das Lernen einer dynamischen Berechnungspolitik für jeden Pixel, um den gesamten Rechenaufwand zu verringern, während die Genauigkeit erhalten bleibt.Wir evaluieren die PAG ausführlich anhand verschiedener pixelbasierter Klassifizierungsaufgaben, darunter semantische Segmentierung, Randdetektion, monokulare Tiefenschätzung und Oberflächennormalenschätzung. Wir zeigen, dass die PAG wettbewerbsfähige oder standesgemäße Leistungen bei diesen Aufgaben ermöglicht. Unsere Experimente belegen, dass die PAG eine dynamische räumliche Zuordnung der Berechnungen über das Eingangsbild lernt, was bessere Leistungskompromisse gegenüber verwandten Ansätzen (z.B. dem Abschneiden tiefer Modelle oder dem dynamischen Überspringen ganzer Schichten) bietet. Im Allgemeinen beobachten wir, dass die PAG den Rechenaufwand um $10\%$ reduzieren kann, ohne einen bemerkenswerten Verlust an Genauigkeit und Leistung zu verursachen. Die Leistung verschlechtert sich außerdem sanft unter stärkeren rechnerischen Einschränkungen.