HyperAIHyperAI

Command Palette

Search for a command to run...

Die Nutzung von Diffusionsmodellen für die visuelle Wahrnehmung mit Meta-Prompts

Qiang Wan Zilong Huang Bingyi Kang Jiashi Feng Li Zhang

Zusammenfassung

Das Problem der generativen Vortrainierung für visuelle Modelle bleibt ein lang bestehendes Dilemma. Derzeit zeigt das Text-zu-Bild (T2I)-Diffusionsmodell bemerkenswerte Fähigkeiten bei der Erzeugung hochauflösender Bilder, die den textuellen Eingaben entsprechen, was durch seine Vortrainierung auf großskaligen Bild-Text-Paaren ermöglicht wird. Dies führt zu einer naheliegenden Frage: Können Diffusionsmodelle auch zur Bewältigung visueller Wahrnehmungsaufgaben eingesetzt werden? In diesem Paper stellen wir ein einfaches, jedoch wirksames Verfahren vor, um ein Diffusionsmodell für visuelle Wahrnehmungsaufgaben zu nutzen. Unser zentrales Konzept besteht darin, lernbare Embeddings (Meta-Prompts) in bereits vortrainierte Diffusionsmodelle einzuführen, um geeignete Merkmale für die Wahrnehmung zu extrahieren. Die Wirkung der Meta-Prompts ist zweifach: Erstens kann es als direkte Ersetzung der Text-Embeddings in T2I-Modellen dienen und während der Merkmalsextraktion tätigkeitsrelevante Merkmale aktivieren. Zweitens wird es verwendet, um die extrahierten Merkmale neu zu ordnen, um sicherzustellen, dass das Modell sich auf die für die jeweilige Aufgabe relevantesten Merkmale konzentriert. Zusätzlich entwickeln wir eine rekursive Verbesserungs-Trainingsstrategie, die die Eigenschaften von Diffusionsmodellen voll ausnutzt und somit stärkere visuelle Merkmale erzeugt. Umfangreiche Experimente an verschiedenen Benchmarks bestätigen die Wirksamkeit unseres Ansatzes. Unsere Methode erreicht neue Bestleistungen bei der Tiefenschätzung auf den Datensätzen NYU Depth V2 und KITTI sowie bei der semantischen Segmentierung auf CityScapes. Gleichzeitig erzielt der vorgeschlagene Ansatz Ergebnisse, die mit dem derzeitigen Stand der Technik bei der semantischen Segmentierung auf dem ADE20K-Datensatz und der Pose-Schätzung auf dem COCO-Datensatz vergleichbar sind, was seine Robustheit und Vielseitigkeit eindrucksvoll unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Nutzung von Diffusionsmodellen für die visuelle Wahrnehmung mit Meta-Prompts | Paper | HyperAI