HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen semantischer Konzepte und Ordnung für die Zuordnung von Bildern und Sätzen

Yan Huang Qi Wu Liang Wang

Zusammenfassung

Die Zuordnung von Bildern und Sätzen hat in letzter Zeit große Fortschritte gemacht, bleibt aber aufgrund der großen visuellen-semantischen Diskrepanz herausfordernd. Diese Schwierigkeit entsteht hauptsächlich daraus, dass die Darstellung von bildbasierten Pixelinformationen in der Regel hochwertige semantische Informationen wie im zugehörigen Satz fehlt. In dieser Arbeit schlagen wir ein semantikverstärktes Modell zur Bild-Satz-Zuordnung vor, das die Bildrepräsentation durch das Lernen von semantischen Konzepten verbessern kann und diese dann in der richtigen semantischen Reihenfolge organisiert. Gegeben ein Bild, verwenden wir zunächst ein mehrregionales multilabel-CNN (Convolutional Neural Network), um seine semantischen Konzepte zu prognostizieren, darunter Objekte, Eigenschaften, Aktionen usw. Anschließend berücksichtigen wir, dass verschiedene Reihenfolgen der semantischen Konzepte zu unterschiedlichen semantischen Bedeutungen führen können. Dazu nutzen wir ein kontextgesteuertes Schema zur Satzerzeugung für das Lernen der semantischen Reihenfolge. Dieses verwendet gleichzeitig den globalen Kontext des Bildes, der Konzeptbeziehungen enthält, als Referenz und die tatsächliche semantische Reihenfolge im zugehörigen Satz als Überwachung. Nachdem wir die verbesserte Bildrepräsentation erhalten haben, lernen wir die Satzrepräsentation mit einem herkömmlichen LSTM (Long Short-Term Memory)-Netzwerk und führen dann gemeinsam die Zuordnung von Bild und Satz sowie die Satzerzeugung durch, um das Modell zu trainieren. Umfangreiche Experimente belegen die Effektivität unserer gelernten semantischen Konzepte und ihrer Reihenfolge durch die Erreichung erstklassiger Ergebnisse auf zwei öffentlichen Benchmark-Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen semantischer Konzepte und Ordnung für die Zuordnung von Bildern und Sätzen | Paper | HyperAI