HyperAIHyperAI

Command Palette

Search for a command to run...

Das Lernen des Zählens von Objekten in natürlichen Bildern für visuelle Fragebeantwortung

Yan Zhang; Jonathon Hare; Adam Prügel-Bennett

Zusammenfassung

Visuelle Fragebeantwortungsmodelle (VQA) haben bisher Schwierigkeiten damit gehabt, Objekte in natürlichen Bildern zu zählen. Wir identifizieren ein grundlegendes Problem aufgrund der weichen Aufmerksamkeit (soft attention) in diesen Modellen als Ursache. Um dieses Problem zu umgehen, schlagen wir eine neuronale Netzwerkkomponente vor, die es ermöglicht, robust aus Objektvorschlägen zu zählen. Experimente mit einer einfachen Aufgabe zeigen die Effektivität dieser Komponente, und wir erzielen den Stand der Technik in Genauigkeit für die Kategorie "Zahl" des VQA v2-Datensatzes, ohne andere Kategorien negativ zu beeinflussen. Tatsächlich übertreffen unsere einzelnen Modelle sogar Ensemble-Modelle. Bei einem schwierigen balancierten Paarmetrik führt die Komponente zu einem erheblichen Fortschritt im Zählen von 6,6 % über eine starke Baseline hinweg.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp