HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodales Residuenlernen für visuelle QA

Jin-Hwa Kim Sang-Woo Lee Dong-Hyun Kwak Min-Oh Heo Jeonghee Kim Jung-Woo Ha Byoung-Tak Zhang

Zusammenfassung

Tiefe neuronale Netze setzen ihre Fortschritte bei der Bilderkennung mit verschiedenen Methoden fort. Allerdings bleiben Anwendungen dieser Methoden auf multimodale Daten begrenzt. In diesem Beitrag stellen wir Multimodale Residuen-Netze (MRN) vor, die das multimodale residuale Lernen für visuelle Fragebeantwortung erweitern und die Idee des tiefen residualen Lernens weiterentwickeln. Im Gegensatz zum tiefen residualen Lernen lernt MRN effektiv eine gemeinsame Darstellung aus visuellen und sprachlichen Informationen. Das Kernkonzept besteht darin, elementweise Multiplikation für die gemeinsamen residualen Abbildungen zu verwenden, wobei die residuale Lernmethoden von Aufmerksamkeitsmodellen in jüngsten Studien genutzt werden. Auf Basis unserer Untersuchungen werden verschiedene alternative Modelle, die durch Multimodalität eingeführt werden, untersucht. Wir erzielen Stand-der-Technik-Ergebnisse im Visual QA-Datensatz sowohl für offene als auch für multiple-Choice-Aufgaben. Darüber hinaus führen wir eine neuartige Methode ein, um den Aufmerksamkeits-Effekt der gemeinsamen Darstellungen für jeden Lernblock mithilfe des Backpropagation-Algorithmus zu visualisieren, obwohl die visuellen Merkmale ohne räumliche Information kollabiert sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp