Tiefe visuelle-semantische Ausrichtungen zur Generierung von Bildbeschreibungen

Wir präsentieren ein Modell, das natürlichsprachliche Beschreibungen von Bildern und deren Bereichen generiert. Unser Ansatz nutzt Datensätze von Bildern und ihren Satzbeschreibungen, um die intermodalen Korrespondenzen zwischen Sprache und visuellen Daten zu erlernen. Unser Ausrichtungsmodell basiert auf einer neuen Kombination von Faltungsneuronalen Netzen über Bildbereiche, bidirektionalen Rekurrenten Neuronalen Netzen über Sätze und einem strukturierten Zielfunktion, die die beiden Modalitäten durch eine multimodale Einbettung ausrichtt. Anschließend beschreiben wir eine Architektur eines multimodalen Rekurrenten Neuronalen Netzes, das die abgeleiteten Ausrichtungen verwendet, um neue Beschreibungen von Bildbereichen zu erlernen. Wir zeigen, dass unser Ausrichtungsmodell in Retrieval-Experimenten auf den Datensätzen Flickr8K, Flickr30K und MSCOCO erstklassige Ergebnisse liefert. Danach demonstrieren wir, dass die generierten Beschreibungen sowohl bei vollständigen Bildern als auch bei einem neuen Datensatz mit regionalen Annotationen signifikant besser sind als die Baseline-Verfahren für Retrieval.