WeakSAM: Segmentierung von Allem trifft schwach überwachte Instanz-Level-Erkennung

Die visuelle Erkennung unter schwach überwachter Bedingung mit ungenauer Überwachung ist ein kritisches, aber herausforderndes Lernproblem. Sie reduziert die Kosten für menschliche Annotationen erheblich und basiert traditionell auf Multi-Instance-Lernen und Pseudo-Labeling. In dieser Arbeit wird WeakSAM vorgestellt, das die schwach überwachte Objekterkennung (WSOD) und -segmentierung durch die Nutzung des im Voraus gelernten Weltwissens in einem visuellen Grundmodell, nämlich dem Segment Anything Model (SAM), löst. WeakSAM behebt zwei wesentliche Einschränkungen des traditionellen WSOD-Wiederauftrainings, nämlich die Unvollständigkeit von Pseudo-Ground-Truth (PGT) und rauschige PGT-Instanzen, durch adaptive PGT-Erzeugung und Regularisierung durch Weglassen von Regionen von Interesse (RoI-Drop). Es behebt zudem die Probleme des SAMs, dass es Anregungen benötigt und bei der automatischen Objekterkennung und -segmentierung Kategorien nicht kennt. Unsere Ergebnisse zeigen, dass WeakSAM die bisherigen Standesmethoden in den Benchmarks für WSOD und WSIS um deutliche Margen übertreffen kann, nämlich durch durchschnittliche Verbesserungen von 7,4 % und 8,5 %. Der Code ist unter \url{https://github.com/hustvl/WeakSAM} verfügbar.