HyperAIHyperAI

Command Palette

Search for a command to run...

AutoFocusFormer: Bildsegmentierung jenseits des Gitters

Chen Ziwen Kaushik Patnaik Shuangfei Zhai Alvin Wan Zhile Ren Alex Schwing Alex Colburn Li Fuxin

Zusammenfassung

Realweltbilder weisen oft eine stark ungleichmäßige Inhaltsdichte auf. In einigen Bereichen sind sie sehr einheitlich, beispielsweise große Flächen blauen Himmels, während andere Bereiche mit zahlreichen kleinen Objekten übersät sind. Die üblicherweise in konvolutionellen tiefen Netzwerken verwendete sukzessive Gitter-Downsampling-Strategie behandelt jedoch alle Bereiche gleich, wodurch kleine Objekte in sehr wenigen räumlichen Positionen repräsentiert werden und somit die Leistung in Aufgaben wie Segmentierung leidet. Intuitiv hilft es, während des Downsamplings mehr Pixel beizubehalten, die kleine Objekte darstellen, um wichtige Informationen zu bewahren. Um dies zu erreichen, stellen wir AutoFocusFormer (AFF) vor – einen lokalen Aufmerksamkeits-Transformer für Bilderkennung, der adaptiven Downsampling durchführt, indem er lernt, die für die Aufgabe wichtigsten Pixel beizubehalten. Da adaptiver Downsampling eine Menge von Pixeln erzeugt, die unregelmäßig im Bildraum verteilt sind, verzichten wir auf die klassische Gitterstruktur. Stattdessen entwickeln wir einen neuartigen punktbasierten lokalen Aufmerksamkeitsblock, der durch ein ausgewogenes Clustering-Modul und ein lernbares Nachbarschaftsverschmelzungsmodul unterstützt wird und repräsentative Darstellungen für unsere punktbasierten Versionen von State-of-the-Art-Segmentierköpfe liefert. Experimente zeigen, dass unser AutoFocusFormer (AFF) signifikant gegenüber Basismodellen ähnlicher Größe verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AutoFocusFormer: Bildsegmentierung jenseits des Gitters | Paper | HyperAI