LISA: Segmentierung durch Großes Sprachmodell

Obwohl Wahrnehmungssysteme in den letzten Jahren bemerkenswerte Fortschritte gemacht haben, hängen sie immer noch von expliziten menschlichen Anweisungen oder vordefinierten Kategorien ab, um Ziele zu identifizieren, bevor visuelle Erkennungsaufgaben ausgeführt werden. Solche Systeme können nicht aktiv über implizite Benutzerabsichten nachdenken und diese verstehen. In dieser Arbeit schlagen wir eine neue Segmentierungsaufgabe vor – die reasoning-basierte Segmentierung (reasoning segmentation). Diese Aufgabe ist so gestaltet, dass ein Segmentierungs-Maskenbild auf Basis eines komplexen und impliziten Abfrage-Textes generiert wird. Des Weiteren erstellen wir einen Benchmark, der mehr als tausend Bild-Anweisung-Maske-Datensätze enthält, die mit komplizierten Schlussfolgerungen und Weltwissen für Evaluationszwecke ausgestattet sind. Schließlich stellen wir LISA vor: das große sprachgesteuerte Segmentierungsassistent (large Language Instructed Segmentation Assistant), das die Spracherzeugungsfähigkeiten multimodaler großer Sprachmodelle (multimodal Large Language Models, LLMs) erbt und gleichzeitig die Fähigkeit besitzt, Segmentierungs-Masken zu erzeugen. Wir erweitern das ursprüngliche Vokabular mit einem <SEG>-Token und schlagen das Paradigma des Einbettens als Maske vor, um die Segmentierungsfähigkeit freizuschalten. Bemerkenswerterweise kann LISA Fälle behandeln, die komplexe Schlussfolgerungen und Weltwissen beinhalten. Darüber hinaus zeigt es eine robuste Zero-Shot-Fähigkeit, wenn es ausschließlich auf Datensätzen trainiert wird, die keine Schlussfolgerungen enthalten. Zudem führt das Feinjustieren des Modells mit lediglich 239 reasoning-basierten Segmentierungsdatensätzen zu einer weiteren Leistungssteigerung. Sowohl quantitative als auch qualitative Experimente zeigen, dass unsere Methode effektiv neue reasoning-basierte Segmentierungsfähigkeiten für multimodale LLMs freischaltet. Der Code, die Modelle und die Daten sind unter https://github.com/dvlab-research/LISA verfügbar.