HyperAIHyperAI
vor 17 Tagen

Steuerung der Bildbeschreibung räumlich und zeitlich

{Shuai Ma, Nan Duan, Ming Zhou, Huaishao Luo, Lei Ji, Kun Yan}
Steuerung der Bildbeschreibung räumlich und zeitlich
Abstract

Die Erzeugung von Bildunterschriften unter Berücksichtigung der Benutzerabsicht stellt eine zunehmend wichtige Anforderung dar. Der kürzlich veröffentlichte Localized Narratives-Datensatz integriert Mausverläufe als zusätzliche Eingabe in die Aufgabe der Bildunterschriftengenerierung, was eine intuitive und effiziente Methode darstellt, um zu steuern, was im Bild beschrieben werden soll. Dennoch bleibt die effektive Nutzung dieser Verläufe zur Verbesserung der Generierungsqualität und Kontrollierbarkeit noch Gegenstand der Forschung. In dieser Arbeit wird dieses Problem angegangen, indem ein neuartiges Modell namens LoopCAG vorgestellt wird, das kontrastive Einschränkungen und Aufmerksamkeitsführung in einer Schleifenstruktur verbindet und explizite räumliche und zeitliche Constraints in den Generierungsprozess einbezieht. Genauer gesagt wird jeder generierte Satz zeitlich an die entsprechende Spursequenz mittels einer kontrastiven Lernstrategie ausgerichtet. Zudem wird jeder generierte Texttoken durch eine heuristische räumliche Aufmerksamkeitsführung dahingehend überwacht, dass er auf die korrekten visuellen Objekte fokussiert. Umfassende experimentelle Ergebnisse zeigen, dass das LoopCAG-Modell eine verbesserte Korrespondenz zwischen den drei Modalitäten (Vision, Sprache und Spuren) erlernt und eine state-of-the-art (SOTA)-Leistung bei der spurenbasierten Bildunterschriftengenerierung erzielt. Darüber hinaus wird die Kontrollierbarkeit und Erklärbarkeit von LoopCAG durch die Analyse der räumlichen und zeitlichen Sensitivität während des Generierungsprozesses bestätigt.