HyperAIHyperAI

Command Palette

Search for a command to run...

Vielfältige und kohärente Absatzgenerierung aus Bildern

Moitreya Chatterjee Alexander G. Schwing

Zusammenfassung

Die Erstellung von Absätzen aus Bildern, die in letzter Zeit an Popularität gewonnen hat, ist eine wichtige Aufgabe für die Videozusammenfassung, -bearbeitung und die Unterstützung von Menschen mit Behinderungen. Traditionelle Bildunterschriftenerzeugungsverfahren sind auf diesem Gebiet unzureichend, da sie nicht darauf ausgelegt sind, lange und informative Beschreibungen zu generieren. Darüber hinaus reicht der einfache Ansatz, mehrere kurze Sätze – möglicherweise durch ein klassisches Bildunterschriftensystem synthetisiert – einfach zu verketten, nicht aus, um die Komplexitäten von Absätzen zu berücksichtigen: kohärente Sätze, global konsistente Struktur und Vielfalt. Um diese Herausforderungen anzugehen, schlagen wir vor, Absatzgenerierungstechniken mit „Kohärenzvektoren“, „globalen Themenvektoren“ und der Modellierung der inhärenten Ambiguität der Zuordnung von Absätzen zu Bildern durch eine Variations-Autoencoder-Formulierung zu erweitern. Wir zeigen die Effektivität des entwickelten Ansatzes anhand zweier Datensätze und übertreffen dabei bestehende state-of-the-art-Techniken in beiden Fällen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vielfältige und kohärente Absatzgenerierung aus Bildern | Paper | HyperAI