Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

Angetrieben durch großskaliges Vortrainieren zeigen visuelle Grundmodelle erhebliches Potenzial für die Bildverstehensaufgaben in offenen Welten. Im Gegensatz zu großen Sprachmodellen, die direkt verschiedene Sprachaufgaben effizient bewältigen können, erfordern visuelle Grundmodelle eine auf die jeweilige Aufgabe zugeschnittene Modellarchitektur, gefolgt von einer Feinabstimmung auf spezifische Aufgaben. In dieser Arbeit präsentieren wir Matcher, ein neuartiges Wahrnehmungsparadigma, das kommerziell erhältliche visuelle Grundmodelle nutzt, um eine Vielzahl von Wahrnehmungsaufgaben zu lösen. Matcher kann jedes Objekt segmentieren, indem es ein Kontextbeispiel nutzt, ohne dass ein Training erforderlich ist. Darüber hinaus entwickeln wir drei effektive Komponenten innerhalb des Matcher-Rahmens, die mit diesen Grundmodellen kooperieren und ihr volles Potenzial in vielfältigen Wahrnehmungsaufgaben entfalten. Matcher zeigt beeindruckende Generalisierungsfähigkeit bei verschiedenen Segmentierungsaufgaben – alles ohne Training. Beispielsweise erreicht es auf COCO-20$^i$ bei Verwendung eines einzigen Beispiels eine mIoU von 52,7 %, was die state-of-the-art-Spezialistenmodelle um 1,6 % schlägt. Zudem erzielt Matcher auf dem vorgeschlagenen LVIS-92$^i$ für die One-Shot-Semantische Segmentierung eine mIoU von 33,0 %, was die state-of-the-art-Allzweckmodelle um 14,4 % übertrifft. Unsere Visualisierungsergebnisse demonstrieren zudem die Offenwelt-Generizität und Flexibilität von Matcher bei der Anwendung auf Bilder aus der realen Welt. Der Quellcode ist unter https://github.com/aim-uofa/Matcher verfügbar.