Kontext- und Attributbasiertes Dichtes Beschreiben

Dichte Beschriftung (dense captioning) zielt darauf ab, semantische Bereiche simultan zu lokalisieren und diese Regionen von Interesse (ROIs) mit kurzen Phrasen oder Sätzen in natürlicher Sprache zu beschreiben. Frühere Studien haben bemerkenswerte Fortschritte gezeigt, sind aber oft anfällig für das Aperturproblem, bei dem eine durch die Merkmale innerhalb einer ROI generierte Beschriftung keinen kontextuellen Zusammenhang mit der umgebenden Struktur im Eingabebild aufweist. In dieser Arbeit untersuchen wir kontextbasiertes Schließen unter Verwendung von mehrskaligen Nachrichtenverteilungen vom benachbarten Inhalt zu den Ziel-ROIs. Zu diesem Zweck entwickeln wir ein neuartiges end-to-end Framework für kontext- und attributbasierte dichte Beschriftung, das aus 1) einem Modul zur kontextuellen visuellen Mining und 2) einem Modul zur mehrstufigen attributbasierten Beschreibungserstellung besteht. Da Beschriftungen häufig mit linguistischen Attributen (wie wer, was und wo) zusammenfallen, integrieren wir auch eine zusätzliche Überwachung durch hierarchische linguistische Attribute, um die Unterscheidbarkeit der gelernten Beschriftungen zu erhöhen. Ausführliche Experimente und Abschleifstudien am Visual Genome-Datensatz zeigen die Überlegenheit des vorgeschlagenen Modells im Vergleich zu den bislang besten Methoden.