HyperAIHyperAI

Command Palette

Search for a command to run...

Steuerung der Bildbeschreibung räumlich und zeitlich

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Zusammenfassung

Die Erzeugung von Bildunterschriften unter Berücksichtigung der Benutzerabsicht stellt eine zunehmend wichtige Anforderung dar. Der kürzlich veröffentlichte Localized Narratives-Datensatz integriert Mausverläufe als zusätzliche Eingabe in die Aufgabe der Bildunterschriftengenerierung, was eine intuitive und effiziente Methode darstellt, um zu steuern, was im Bild beschrieben werden soll. Dennoch bleibt die effektive Nutzung dieser Verläufe zur Verbesserung der Generierungsqualität und Kontrollierbarkeit noch Gegenstand der Forschung. In dieser Arbeit wird dieses Problem angegangen, indem ein neuartiges Modell namens LoopCAG vorgestellt wird, das kontrastive Einschränkungen und Aufmerksamkeitsführung in einer Schleifenstruktur verbindet und explizite räumliche und zeitliche Constraints in den Generierungsprozess einbezieht. Genauer gesagt wird jeder generierte Satz zeitlich an die entsprechende Spursequenz mittels einer kontrastiven Lernstrategie ausgerichtet. Zudem wird jeder generierte Texttoken durch eine heuristische räumliche Aufmerksamkeitsführung dahingehend überwacht, dass er auf die korrekten visuellen Objekte fokussiert. Umfassende experimentelle Ergebnisse zeigen, dass das LoopCAG-Modell eine verbesserte Korrespondenz zwischen den drei Modalitäten (Vision, Sprache und Spuren) erlernt und eine state-of-the-art (SOTA)-Leistung bei der spurenbasierten Bildunterschriftengenerierung erzielt. Darüber hinaus wird die Kontrollierbarkeit und Erklärbarkeit von LoopCAG durch die Analyse der räumlichen und zeitlichen Sensitivität während des Generierungsprozesses bestätigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Steuerung der Bildbeschreibung räumlich und zeitlich | Paper | HyperAI