HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Faltungss neuronale Netze zur Zuordnung von Bildern und Sätzen

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li

Zusammenfassung

In dieser Arbeit schlagen wir multimodale Faltungsneuronale Netze (m-CNNs) für die Zuordnung von Bildern und Sätzen vor. Unser m-CNN bietet ein End-to-End-Framework mit faltungsneuronalen Architekturen, um die Bildrepräsentation, die Wortsammelung und die Zuordnungsbeziehungen zwischen den beiden Modalitäten zu nutzen. Genauer gesagt besteht es aus einem Bild-CNN, das den Bildinhalt kodiert, und einem Matching-CNN, das die gemeinsame Repräsentation von Bild und Satz lernt. Das Matching-CNN kombiniert Wörter zu verschiedenen semantischen Fragmenten und lernt die intermodalen Beziehungen zwischen Bild und den zusammengesetzten Fragmenten auf verschiedenen Ebenen, wodurch es die Zuordnungsbeziehungen zwischen Bild und Satz vollständig nutzt. Experimentelle Ergebnisse auf Referenzdatenbanken für bidirektionale Bild- und Satzretrieval zeigen, dass die vorgeschlagenen m-CNNs effektiv die notwendigen Informationen für die Zuordnung von Bildern und Sätzen erfassen können. Insbesondere erreichen unsere vorgeschlagenen m-CNNs für bidirektionale Bild- und Satzretrieval auf den Datenbanken Flickr30K und Microsoft COCO Spitzenleistungen (state-of-the-art performances).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multimodale Faltungss neuronale Netze zur Zuordnung von Bildern und Sätzen | Paper | HyperAI