AutoFocusFormer: Bildsegmentierung jenseits des Gitters

Realweltbilder weisen oft eine stark ungleichmäßige Inhaltsdichte auf. In einigen Bereichen sind sie sehr einheitlich, beispielsweise große Flächen blauen Himmels, während andere Bereiche mit zahlreichen kleinen Objekten übersät sind. Die üblicherweise in konvolutionellen tiefen Netzwerken verwendete sukzessive Gitter-Downsampling-Strategie behandelt jedoch alle Bereiche gleich, wodurch kleine Objekte in sehr wenigen räumlichen Positionen repräsentiert werden und somit die Leistung in Aufgaben wie Segmentierung leidet. Intuitiv hilft es, während des Downsamplings mehr Pixel beizubehalten, die kleine Objekte darstellen, um wichtige Informationen zu bewahren. Um dies zu erreichen, stellen wir AutoFocusFormer (AFF) vor – einen lokalen Aufmerksamkeits-Transformer für Bilderkennung, der adaptiven Downsampling durchführt, indem er lernt, die für die Aufgabe wichtigsten Pixel beizubehalten. Da adaptiver Downsampling eine Menge von Pixeln erzeugt, die unregelmäßig im Bildraum verteilt sind, verzichten wir auf die klassische Gitterstruktur. Stattdessen entwickeln wir einen neuartigen punktbasierten lokalen Aufmerksamkeitsblock, der durch ein ausgewogenes Clustering-Modul und ein lernbares Nachbarschaftsverschmelzungsmodul unterstützt wird und repräsentative Darstellungen für unsere punktbasierten Versionen von State-of-the-Art-Segmentierköpfe liefert. Experimente zeigen, dass unser AutoFocusFormer (AFF) signifikant gegenüber Basismodellen ähnlicher Größe verbessert.