Lernen semantischer Konzepte und Ordnung für die Zuordnung von Bildern und Sätzen

Die Zuordnung von Bildern und Sätzen hat in letzter Zeit große Fortschritte gemacht, bleibt aber aufgrund der großen visuellen-semantischen Diskrepanz herausfordernd. Diese Schwierigkeit entsteht hauptsächlich daraus, dass die Darstellung von bildbasierten Pixelinformationen in der Regel hochwertige semantische Informationen wie im zugehörigen Satz fehlt. In dieser Arbeit schlagen wir ein semantikverstärktes Modell zur Bild-Satz-Zuordnung vor, das die Bildrepräsentation durch das Lernen von semantischen Konzepten verbessern kann und diese dann in der richtigen semantischen Reihenfolge organisiert. Gegeben ein Bild, verwenden wir zunächst ein mehrregionales multilabel-CNN (Convolutional Neural Network), um seine semantischen Konzepte zu prognostizieren, darunter Objekte, Eigenschaften, Aktionen usw. Anschließend berücksichtigen wir, dass verschiedene Reihenfolgen der semantischen Konzepte zu unterschiedlichen semantischen Bedeutungen führen können. Dazu nutzen wir ein kontextgesteuertes Schema zur Satzerzeugung für das Lernen der semantischen Reihenfolge. Dieses verwendet gleichzeitig den globalen Kontext des Bildes, der Konzeptbeziehungen enthält, als Referenz und die tatsächliche semantische Reihenfolge im zugehörigen Satz als Überwachung. Nachdem wir die verbesserte Bildrepräsentation erhalten haben, lernen wir die Satzrepräsentation mit einem herkömmlichen LSTM (Long Short-Term Memory)-Netzwerk und führen dann gemeinsam die Zuordnung von Bild und Satz sowie die Satzerzeugung durch, um das Modell zu trainieren. Umfangreiche Experimente belegen die Effektivität unserer gelernten semantischen Konzepte und ihrer Reihenfolge durch die Erreichung erstklassiger Ergebnisse auf zwei öffentlichen Benchmark-Datensätzen.