„Dies ist mein Einhorn, Fluffy“: Personalisierung gefrorener Vision-Sprach-Modelle

Große Vision & Sprachmodelle, die auf webbasierten Daten vortrainiert wurden, bieten Darstellungen, die für zahlreiche V&S-Probleme unersetzlich sind. Es ist jedoch unklar, wie diese Modelle zur Schlussfolgerung über benutzerspezifische visuelle Konzepte in strukturloser Sprache eingesetzt werden können. Dieses Problem tritt in verschiedenen Bereichen auf, von personalisierter Bildsuche bis hin zu personalisierter Interaktion mit intelligenten Geräten. Wir stellen eine neue Lernumgebung vor, die als Personalized Vision & Language (PerVL) bezeichnet wird, und zwei neue Benchmark-Datensätze für das Suchen und Segmentieren benutzerspezifischer „personalisierter“ Konzepte „im Wild“. In PerVL sollte man (1) unabhängig vom nachgelagerten Aufgabe benutzerspezifische Konzepte lernen, (2) es einem vortrainierten Modell ermöglichen, über diese Konzepte mit freier Sprache zu schlussfolgern, und (3) keine personalisierten negativen Beispiele erfordern. Wir schlagen eine Architektur zum Lösen von PerVL vor, die durch Erweiterung des Eingabewortschatzes eines vortrainierten Modells mit neuen Wort-Einbettungen für die neuen personalisierten Konzepte arbeitet. Das Modell kann dann einfach durch deren Verwendung in einem Satz über sie schlussfolgern. Wir zeigen, dass unser Ansatz personalisierte visuelle Konzepte aus wenigen Beispielen lernt und diese effektiv bei der Bildsuche und semantischen Segmentation unter Verwendung reichhaltiger textbasierter Abfragen anwenden kann.