HyperAIHyperAI

Command Palette

Search for a command to run...

Bildunterschrift und visuelle Fragebeantwortung basierend auf Attributen und externem Wissen

Qi Wu Chunhua Shen Peng Wang Anthony Dick Anton van den Hengel

Zusammenfassung

Viel Fortschritt bei Vision-to-Language-Problemen wurde in letzter Zeit durch eine Kombination von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) und Rekurrenten Neuronalen Netzen (Recurrent Neural Networks, RNNs) erzielt. Dieser Ansatz repräsentiert hochstufige semantische Konzepte nicht explizit, sondern strebt vielmehr danach, direkt von Bildmerkmalen zu Text überzugehen. In dieser Arbeit schlagen wir zunächst eine Methode vor, um hochstufige Konzepte in den erfolgreichen CNN-RNN-Ansatz zu integrieren, und zeigen, dass dies einen signifikanten Fortschritt im Vergleich zum aktuellen Stand der Technik sowohl beim Bildbeschreibungsgenerator als auch bei der visuellen Fragebeantwortung darstellt. Wir demonstrieren ferner, dass das gleiche Verfahren verwendet werden kann, um externes Wissen zu integrieren, was für die Beantwortung hochstufiger visueller Fragen von entscheidender Bedeutung ist. Insbesondere entwerfen wir ein Modell zur visuellen Fragebeantwortung, das eine interne Darstellung des Inhalts eines Bildes mit Informationen aus einer allgemeinen Wissensdatenbank kombiniert, um eine breite Palette von bildbasierten Fragen zu beantworten. Es ermöglicht insbesondere Fragen zum Inhalt eines Bildes, selbst wenn das Bild selbst keine vollständige Antwort enthält. Unser endgültiges Modell erzielt die besten bisher gemeldeten Ergebnisse sowohl beim Bildbeschreibungsgenerator als auch bei der visuellen Fragebeantwortung auf mehreren Benchmark-Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp