Die Nutzung von Diffusionsmodellen für die visuelle Wahrnehmung mit Meta-Prompts

Das Problem der generativen Vortrainierung für visuelle Modelle bleibt ein lang bestehendes Dilemma. Derzeit zeigt das Text-zu-Bild (T2I)-Diffusionsmodell bemerkenswerte Fähigkeiten bei der Erzeugung hochauflösender Bilder, die den textuellen Eingaben entsprechen, was durch seine Vortrainierung auf großskaligen Bild-Text-Paaren ermöglicht wird. Dies führt zu einer naheliegenden Frage: Können Diffusionsmodelle auch zur Bewältigung visueller Wahrnehmungsaufgaben eingesetzt werden? In diesem Paper stellen wir ein einfaches, jedoch wirksames Verfahren vor, um ein Diffusionsmodell für visuelle Wahrnehmungsaufgaben zu nutzen. Unser zentrales Konzept besteht darin, lernbare Embeddings (Meta-Prompts) in bereits vortrainierte Diffusionsmodelle einzuführen, um geeignete Merkmale für die Wahrnehmung zu extrahieren. Die Wirkung der Meta-Prompts ist zweifach: Erstens kann es als direkte Ersetzung der Text-Embeddings in T2I-Modellen dienen und während der Merkmalsextraktion tätigkeitsrelevante Merkmale aktivieren. Zweitens wird es verwendet, um die extrahierten Merkmale neu zu ordnen, um sicherzustellen, dass das Modell sich auf die für die jeweilige Aufgabe relevantesten Merkmale konzentriert. Zusätzlich entwickeln wir eine rekursive Verbesserungs-Trainingsstrategie, die die Eigenschaften von Diffusionsmodellen voll ausnutzt und somit stärkere visuelle Merkmale erzeugt. Umfangreiche Experimente an verschiedenen Benchmarks bestätigen die Wirksamkeit unseres Ansatzes. Unsere Methode erreicht neue Bestleistungen bei der Tiefenschätzung auf den Datensätzen NYU Depth V2 und KITTI sowie bei der semantischen Segmentierung auf CityScapes. Gleichzeitig erzielt der vorgeschlagene Ansatz Ergebnisse, die mit dem derzeitigen Stand der Technik bei der semantischen Segmentierung auf dem ADE20K-Datensatz und der Pose-Schätzung auf dem COCO-Datensatz vergleichbar sind, was seine Robustheit und Vielseitigkeit eindrucksvoll unterstreicht.