HyperAIHyperAI
vor 2 Monaten

Vielfältige und kohärente Absatzgenerierung aus Bildern

Moitreya Chatterjee; Alexander G. Schwing
Vielfältige und kohärente Absatzgenerierung aus Bildern
Abstract

Die Erstellung von Absätzen aus Bildern, die in letzter Zeit an Popularität gewonnen hat, ist eine wichtige Aufgabe für die Videozusammenfassung, -bearbeitung und die Unterstützung von Menschen mit Behinderungen. Traditionelle Bildunterschriftenerzeugungsverfahren sind auf diesem Gebiet unzureichend, da sie nicht darauf ausgelegt sind, lange und informative Beschreibungen zu generieren. Darüber hinaus reicht der einfache Ansatz, mehrere kurze Sätze – möglicherweise durch ein klassisches Bildunterschriftensystem synthetisiert – einfach zu verketten, nicht aus, um die Komplexitäten von Absätzen zu berücksichtigen: kohärente Sätze, global konsistente Struktur und Vielfalt. Um diese Herausforderungen anzugehen, schlagen wir vor, Absatzgenerierungstechniken mit „Kohärenzvektoren“, „globalen Themenvektoren“ und der Modellierung der inhärenten Ambiguität der Zuordnung von Absätzen zu Bildern durch eine Variations-Autoencoder-Formulierung zu erweitern. Wir zeigen die Effektivität des entwickelten Ansatzes anhand zweier Datensätze und übertreffen dabei bestehende state-of-the-art-Techniken in beiden Fällen.

Vielfältige und kohärente Absatzgenerierung aus Bildern | Neueste Forschungsarbeiten | HyperAI