vor 6 Monaten

Zusammenfassung

Die Erzeugung von Bildunterschriften unter Berücksichtigung der Benutzerabsicht stellt eine zunehmend wichtige Anforderung dar. Der kürzlich veröffentlichte Localized Narratives-Datensatz integriert Mausverläufe als zusätzliche Eingabe in die Aufgabe der Bildunterschriftengenerierung, was eine intuitive und effiziente Methode darstellt, um zu steuern, was im Bild beschrieben werden soll. Dennoch bleibt die effektive Nutzung dieser Verläufe zur Verbesserung der Generierungsqualität und Kontrollierbarkeit noch Gegenstand der Forschung. In dieser Arbeit wird dieses Problem angegangen, indem ein neuartiges Modell namens LoopCAG vorgestellt wird, das kontrastive Einschränkungen und Aufmerksamkeitsführung in einer Schleifenstruktur verbindet und explizite räumliche und zeitliche Constraints in den Generierungsprozess einbezieht. Genauer gesagt wird jeder generierte Satz zeitlich an die entsprechende Spursequenz mittels einer kontrastiven Lernstrategie ausgerichtet. Zudem wird jeder generierte Texttoken durch eine heuristische räumliche Aufmerksamkeitsführung dahingehend überwacht, dass er auf die korrekten visuellen Objekte fokussiert. Umfassende experimentelle Ergebnisse zeigen, dass das LoopCAG-Modell eine verbesserte Korrespondenz zwischen den drei Modalitäten (Vision, Sprache und Spuren) erlernt und eine state-of-the-art (SOTA)-Leistung bei der spurenbasierten Bildunterschriftengenerierung erzielt. Darüber hinaus wird die Kontrollierbarkeit und Erklärbarkeit von LoopCAG durch die Analyse der räumlichen und zeitlichen Sensitivität während des Generierungsprozesses bestätigt.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Zusammenfassung

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Zusammenfassung

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Steuerung der Bildbeschreibung räumlich und zeitlich

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Steuerung der Bildbeschreibung räumlich und zeitlich

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Steuerung der Bildbeschreibung räumlich und zeitlich

Shuai Ma Nan Duan Ming Zhou Huaishao Luo Lei Ji Kun Yan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters