HyperAIHyperAI
vor 2 Monaten

Die Nutzung von Halluzinationen zur Reduktion der manuellen Prompt-Abhängigkeit bei promptbasierten Segmentierungen

Hu, Jian ; Lin, Jiayi ; Yan, Junchi ; Gong, Shaogang
Die Nutzung von Halluzinationen zur Reduktion der manuellen Prompt-Abhängigkeit bei promptbasierten Segmentierungen
Abstract

Promptbare Segmentierung erfordert in der Regel instanzspezifische manuelle Anweisungen, um die Segmentierung des jeweils gewünschten Objekts zu leiten. Um diesen Bedarf zu minimieren, wurde die aufgabenunabhängige promptbare Segmentierung eingeführt, die ein einzelnes aufgabenunabhängiges Prompt verwendet, um verschiedene Bilder verschiedener Objekte in derselben Aufgabe zu segmentieren. Aktuelle Methoden nutzen multimodale große Sprachmodelle (MLLMs), um aus einem aufgabenunabhängigen Prompt detaillierte instanzspezifische Anweisungen abzuleiten, um die Genauigkeit der Segmentierung zu verbessern. Die Effektivität dieser Segmentierung hängt stark von der Präzision dieser abgeleiteten Anweisungen ab. Allerdings leiden MLLMs oft unter Halluzinationen während des Schließens, was zu ungenauen Anweisungen führt. Während bestehende Methoden sich darauf konzentrieren, Halluzinationen zu beseitigen, um ein Modell zu verbessern, argumentieren wir, dass MLLM-Halluzinationen wertvolle kontextuelle Erkenntnisse liefern können, wenn sie korrekt genutzt werden, da sie über individuelle Bilder hinausgehendes vorab trainiertes Wissen repräsentieren. In diesem Artikel nutzen wir Halluzinationen, um aufgabenbezogene Informationen aus Bildern zu gewinnen und ihre Genauigkeit zu verifizieren, um die Präzision der generierten Anweisungen zu erhöhen. Insbesondere stellen wir einen iterativen Framework zur Generierung von Prompt-Maske-Zyklen (ProMaC) mit einem Prompt-Generator und einem Maske-Generator vor. Der Prompt-Generator verwendet eine mehrskalige Kette-von-Gedanken-Prompting-Methode und untersucht zunächst Halluzinationen, um erweitertes kontextuelles Wissen über ein Testbild zu extrahieren. Diese Halluzinationen werden dann reduziert, um präzise instanzspezifische Anweisungen zu formulieren und den Maske-Generator so anzuleiten, dass er Masken erzeugt, die semantisch mit den Aufgabengegebenheiten konsistent sind (Mask-Semantik-Ausrichtung). Die generierten Masken induzieren den Prompt-Generator iterativ dazu, sich stärker auf aufgabenrelevante Bildbereiche zu konzentrieren und irrelevante Halluzinationen zu reduzieren. Dies führt zusammen zur Verbesserung von Anweisungen und Masken. Experimente an fünf Benchmarks zeigen die Effektivität von ProMaC. Der Quellcode ist unter https://lwpyh.github.io/ProMaC/ verfügbar.

Die Nutzung von Halluzinationen zur Reduktion der manuellen Prompt-Abhängigkeit bei promptbasierten Segmentierungen | Neueste Forschungsarbeiten | HyperAI