HyperAIHyperAI

Command Palette

Search for a command to run...

Von Text zu Maske: Lokalisierung von Entitäten unter Verwendung der Aufmerksamkeit von Text-zu-Bild-Diffusionsmodellen

Changming Xiao Qi Yang Feng Zhou Changshui Zhang

Zusammenfassung

Diffusionsmodelle haben in letzter Zeit die Forschung auf dem Gebiet der Text-zu-Bild-Generierung revolutioniert. Die einzigartige Art, Text- und Bildinformationen zu verbinden, trägt maßgeblich zu ihrer bemerkenswerten Fähigkeit bei, hochgradig textrelevante Bilder zu erzeugen. Aus einer anderen Perspektive offenbaren diese generativen Modelle Hinweise auf die präzise Korrelation zwischen Wörtern und Pixeln. In dieser Arbeit wird ein einfacher, aber effektiver Ansatz vorgestellt, um die Aufmerksamkeitsmechanismen im Entrauschungsnetzwerk von Text-zu-Bild-Diffusionsmodellen zu nutzen. Ohne Nachtrainieren oder Optimierung während der Inferenz lässt sich die semantische Grundlage von Phrasen direkt ermitteln. Wir evaluieren unsere Methode unter der Bedingung schwach beschrifteter semantischer Segmentierung auf Pascal VOC 2012 und Microsoft COCO 2014 und zeigen, dass sie gegenüber vorhergehenden Ansätzen überlegene Leistung erzielt. Darüber hinaus zeigt sich, dass die gewonnene Wort-Pixel-Korrelation allgemein verwendbar ist für die gelernten Text-Embeddings anpassungsfähiger Generationsmethoden, wobei lediglich geringfügige Anpassungen erforderlich sind. Um unsere Entdeckung zu validieren, führen wir eine neue praktische Aufgabe namens „personalisierte Bezugsbildsegmentierung“ mit einem neuen Datensatz ein. Experimente in verschiedenen Szenarien belegen die Vorteile unseres Ansatzes gegenüber starken Baselines auf dieser Aufgabe. Zusammenfassend offenbart unsere Arbeit einen neuen Weg, die reichhaltige multimodale Wissensstruktur, die in Diffusionsmodellen verborgen ist, für die Segmentierung auszunutzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp