Einen hierarchischen Ansatz zur Generierung beschreibender Bildabsätze

Kürzliche Fortschritte bei der Bildunterschriftung haben es ermöglicht, neue Sätze in natürlicher Sprache zu generieren, die Bilder beschreiben. Allerdings kann die Kompression eines Bildes in einen einzelnen Satz das visuelle Inhaltsmaterial nur grob darstellen. Während ein neuer Ansatz zur Bildunterschriftung, die dichte Captioning (dense captioning), durch die Beschriftung vieler Bereiche innerhalb eines Bildes potenziell detailliertere Beschreibungen liefern kann, ist sie nicht in der Lage, eine kohärente Geschichte für ein Bild zu erzeugen. In dieser Arbeit überwinden wir diese Einschränkungen, indem wir ganze Absätze zur Beschreibung von Bildern generieren, die detaillierte und zusammenhängende Geschichten erzählen können. Wir entwickeln ein Modell, das sowohl Bilder als auch Absätze in ihre Bestandteile zerlegt, semantische Regionen in Bildern erkennbar macht und eine hierarchische rekurrente Neuronale Netzwerkstruktur verwendet, um sprachliche Zusammenhänge zu analysieren. Eine linguistische Analyse bestätigt die Komplexität der Aufgabe des Absatzgenerierens, und umfassende Experimente auf einem neuen Datensatz von Bild- und Absatzpaaren demonstrieren die Effektivität unseres Ansatzes.