Multimodale Faltungss neuronale Netze zur Zuordnung von Bildern und Sätzen

In dieser Arbeit schlagen wir multimodale Faltungsneuronale Netze (m-CNNs) für die Zuordnung von Bildern und Sätzen vor. Unser m-CNN bietet ein End-to-End-Framework mit faltungsneuronalen Architekturen, um die Bildrepräsentation, die Wortsammelung und die Zuordnungsbeziehungen zwischen den beiden Modalitäten zu nutzen. Genauer gesagt besteht es aus einem Bild-CNN, das den Bildinhalt kodiert, und einem Matching-CNN, das die gemeinsame Repräsentation von Bild und Satz lernt. Das Matching-CNN kombiniert Wörter zu verschiedenen semantischen Fragmenten und lernt die intermodalen Beziehungen zwischen Bild und den zusammengesetzten Fragmenten auf verschiedenen Ebenen, wodurch es die Zuordnungsbeziehungen zwischen Bild und Satz vollständig nutzt. Experimentelle Ergebnisse auf Referenzdatenbanken für bidirektionale Bild- und Satzretrieval zeigen, dass die vorgeschlagenen m-CNNs effektiv die notwendigen Informationen für die Zuordnung von Bildern und Sätzen erfassen können. Insbesondere erreichen unsere vorgeschlagenen m-CNNs für bidirektionale Bild- und Satzretrieval auf den Datenbanken Flickr30K und Microsoft COCO Spitzenleistungen (state-of-the-art performances).