UniFS: Universal Few-shot Instance Perception mit Punkt-Repräsentationen

Aufgaben der Instanzwahrnehmung (Objekterkennung, Instanzsegmentierung, Pose-Schätzung, Zählung) spielen eine zentrale Rolle bei industriellen Anwendungen visueller Modelle. Da überwachte Lernverfahren hohe Kosten für die Etikettierung erfordern, sind Few-Shot-Lernmethoden, die effizient aus einer begrenzten Anzahl von gelabelten Beispielen lernen, von großem Interesse. Bisherige Few-Shot-Lernansätze konzentrieren sich hauptsächlich auf eine eingeschränkte Aufgabensammlung, vermutlich aufgrund der Herausforderungen bei der Entwicklung eines allgemeinen Modells, das verschiedene Aufgaben einheitlich darstellen kann. In diesem Paper stellen wir UniFS vor, ein universelles Few-Shot-Modell für die Instanzwahrnehmung, das eine breite Palette von Aufgaben der Instanzwahrnehmung vereint, indem diese in einen dynamischen Punktrepräsentationslernrahmen umformuliert werden. Zusätzlich schlagen wir Structure-Aware Point Learning (SAPL) vor, um die höherstufigen strukturellen Beziehungen zwischen Punkten auszunutzen, um die Repräsentationslernleistung weiter zu verbessern. Unser Ansatz macht nur minimale Annahmen über die Aufgaben und erreicht dennoch Ergebnisse, die mit hochspezialisierten und sorgfältig optimierten Spezialmodellen konkurrieren. Der Quellcode und die Daten sind unter https://github.com/jin-s13/UniFS verfügbar.