HyperAIHyperAI
vor 3 Monaten

Von Text zu Maske: Lokalisierung von Entitäten unter Verwendung der Aufmerksamkeit von Text-zu-Bild-Diffusionsmodellen

Changming Xiao, Qi Yang, Feng Zhou, Changshui Zhang
Von Text zu Maske: Lokalisierung von Entitäten unter Verwendung der Aufmerksamkeit von Text-zu-Bild-Diffusionsmodellen
Abstract

Diffusionsmodelle haben in letzter Zeit die Forschung auf dem Gebiet der Text-zu-Bild-Generierung revolutioniert. Die einzigartige Art, Text- und Bildinformationen zu verbinden, trägt maßgeblich zu ihrer bemerkenswerten Fähigkeit bei, hochgradig textrelevante Bilder zu erzeugen. Aus einer anderen Perspektive offenbaren diese generativen Modelle Hinweise auf die präzise Korrelation zwischen Wörtern und Pixeln. In dieser Arbeit wird ein einfacher, aber effektiver Ansatz vorgestellt, um die Aufmerksamkeitsmechanismen im Entrauschungsnetzwerk von Text-zu-Bild-Diffusionsmodellen zu nutzen. Ohne Nachtrainieren oder Optimierung während der Inferenz lässt sich die semantische Grundlage von Phrasen direkt ermitteln. Wir evaluieren unsere Methode unter der Bedingung schwach beschrifteter semantischer Segmentierung auf Pascal VOC 2012 und Microsoft COCO 2014 und zeigen, dass sie gegenüber vorhergehenden Ansätzen überlegene Leistung erzielt. Darüber hinaus zeigt sich, dass die gewonnene Wort-Pixel-Korrelation allgemein verwendbar ist für die gelernten Text-Embeddings anpassungsfähiger Generationsmethoden, wobei lediglich geringfügige Anpassungen erforderlich sind. Um unsere Entdeckung zu validieren, führen wir eine neue praktische Aufgabe namens „personalisierte Bezugsbildsegmentierung“ mit einem neuen Datensatz ein. Experimente in verschiedenen Szenarien belegen die Vorteile unseres Ansatzes gegenüber starken Baselines auf dieser Aufgabe. Zusammenfassend offenbart unsere Arbeit einen neuen Weg, die reichhaltige multimodale Wissensstruktur, die in Diffusionsmodellen verborgen ist, für die Segmentierung auszunutzen.