Dichte relationale Bildunterschriften durch Multi-Task-Dreistrom-Netzwerke

Wir stellen dichtes relationales Beschriftung (Dense Relational Captioning) vor, eine neuartige Aufgabe im Bereich der Bildbeschriftung, die darauf abzielt, mehrere Beschriftungen basierend auf relationalen Informationen zwischen Objekten in einer visuellen Szene zu generieren. Relationale Beschriftung bietet explizite Beschreibungen für jede Beziehung zwischen Kombinationen von Objekten. Dieses Framework ist sowohl in Bezug auf Vielfalt als auch auf Informationsmenge vorteilhaft und führt zu einem umfassenden Verständnis von Bildern basierend auf Beziehungen, z.B. zur Generierung relationaler Vorschläge. Für das relationale Verständnis zwischen Objekten kann die Wortartenanalyse (Part-of-Speech, POS; d.h., Subjekt-Objekt-Praedikat-Kategorien) wertvolle Vorinformation sein, um die kausale Abfolge der Wörter in einer Beschriftung zu leiten. Wir zwingen unser Framework nicht nur dazu, Beschriftungen zu generieren, sondern auch das POS jedes Worts zu verstehen. Zu diesem Zweck schlagen wir ein mehrfach-aufgabenbasiertes dreifach-strömisches Netzwerk (Multi-Task Triple-Stream Network, MTTSNet) vor, das aus drei rekurrenten Einheiten besteht, die jeweils für ein POS verantwortlich sind und durch die gemeinsame Vorhersage korrekter Beschriftungen und POS für jedes Wort trainiert werden. Darüber hinaus haben wir festgestellt, dass die Leistung des MTTSNet verbessert werden kann, indem man die Objekt-Embeddings mit einem expliziten relationalen Modul moduliert. Wir zeigen durch umfangreiche experimentelle Analysen auf großen Datensätzen und verschiedenen Metriken, dass unser vorgeschlagenes Modell vielfältigere und reichhaltigere Beschriftungen generieren kann. Anschließend präsentieren wir Anwendungen unseres Frameworks für holistische Bildbeschriftung, Szengraphgenerierung und Retrieval-Aufgaben.