VLPrompt: Vision-Language Prompting für die panoptische Szene-Graphenerstellung

Die Panoptic Scene Graph Generierung (PSG) strebt danach, ein umfassendes Bildverständnis zu erreichen, indem sie gleichzeitig Objekte segmentiert und Beziehungen zwischen diesen Objekten vorhersagt. Allerdings führt das Long-Tail-Problem unter den Beziehungen zu unzufriedenstellenden Ergebnissen in realen Anwendungen. Frühere Methoden basieren hauptsächlich auf visuellen Informationen oder nutzen begrenzte sprachliche Informationen, wie zum Beispiel Objekt- oder Beziehungsnamen, wodurch die Nutzen von sprachlichen Informationen übersehen wird. Indem wir den jüngsten Fortschritten in den Large Language Models (LLMs) nutzen, schlagen wir vor, sprachliche Informationen zur Unterstützung der Beziehungsprognose zu verwenden, insbesondere für seltene Beziehungen. Zu diesem Zweck stellen wir das Vision-Language Prompting (VLPrompt)-Modell vor, das visuelle Informationen aus Bildern und sprachliche Informationen aus LLMs gewinnt. Anschließend erreicht es durch ein auf Aufmerksamkeitsmechanismen basierendes Promptnetzwerk eine präzise Vorhersage von Beziehungen. Unsere umfangreichen Experimente zeigen, dass VLPrompt die bisherigen Stand-of-the-Art-Methoden auf dem PSG-Datensatz deutlich übertreffen kann, was die Effektivität der Einbeziehung von sprachlichen Informationen und die Milderung des Long-Tail-Problems von Beziehungen beweist. Der Quellcode ist unter \url{https://github.com/franciszzj/TP-SIS} verfügbar.