HyperAIHyperAI
vor 2 Monaten

Dichte Relationale Bildunterschriften: Dreiströmnige Netze für beziehungsorientierte Bildunterschriftenerstellung

Dong-Jin Kim; Jinsoo Choi; Tae-Hyun Oh; In So Kweon
Dichte Relationale Bildunterschriften: Dreiströmnige Netze für beziehungsorientierte Bildunterschriftenerstellung
Abstract

Unser Ziel in dieser Arbeit ist es, ein Bildunterschriftungsmodell zu trainieren, das dichtere und informativere Untertitel generiert. Wir führen die „relationale Bildunterschriftung“ ein, eine neuartige Aufgabe der Bildunterschriftung, die darauf abzielt, mehrere Untertitel basierend auf den Beziehungen zwischen Objekten in einem Bild zu erzeugen. Die relationale Bildunterschriftung ist ein Rahmenwerk, das sowohl in Vielfalt als auch in Informationsgehalt vorteilhaft ist und zu einer bildbasierten Wissensgewinnung durch Beziehungen führt. Jedes englische Wort kann mit einer Wortartenkennzeichnung (POS, d.h. Subjekt-Objekt-Praedikat-Kategorien) versehen werden. Wir nutzen die POS als Vorwissen, um die korrekte Wortfolge in einer Bildunterschrift zu leiten. Zu diesem Zweck schlagen wir ein mehrfach gestreamtes Netzwerk mit mehreren Aufgaben (MTTSNet) vor, das aus drei rekurrenten Einheiten für die jeweiligen POS besteht und gleichzeitig POS-Vorhersage und -Unterschriftung durchführt. Wir zeigen, dass das vorgeschlagene Modell gegenüber mehreren Baseline-Verfahren und konkurrierenden Methoden vielfältigere und reichhaltigere Darstellungen erzeugt.