HyperAIHyperAI

Command Palette

Search for a command to run...

Für die Verwendung von Gittermerkmalen im visuellen Fragenbeantworten

Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen

Zusammenfassung

Als „bottom-up“-Aufmerksamkeit bekannt, haben kürzlich regionenbasierte visuelle Merkmale, die auf Bounding Boxes beruhen, herkömmliche, auf Gittern basierende konvolutionale Merkmale als Standard für visuelle Sprachaufgaben wie Visual Question Answering (VQA) abgelöst. Es ist jedoch unklar, ob die Vorteile von Regionen – beispielsweise eine bessere Lokalisierung – die entscheidenden Faktoren für den Erfolg der bottom-up-Aufmerksamkeit sind. In dieser Arbeit untersuchen wir erneut Gittermerkmale für VQA und stellen fest, dass diese überraschend gut funktionieren – sie laufen dabei mehr als eine Größenordnung schneller bei gleichbleibender Genauigkeit (z. B. wenn sie ähnlich wie herkömmliche Modelle vortrainiert werden). Durch umfangreiche Experimente bestätigen wir, dass diese Beobachtung für verschiedene VQA-Modelle, Datensätze gilt und sich gut auf andere Aufgaben wie Bildbeschreibung überträgt (erreichen eine state-of-the-art-Genauigkeit von 72,71 auf dem VQA 2.0 test-std). Da Gittermerkmale die Modellgestaltung und das Trainingsverfahren erheblich vereinfachen, ermöglichen sie eine end-to-end-Trainierung sowie eine flexiblere Netzwerkarchitektur. Wir trainieren VQA-Modelle end-to-end direkt von Bildpixeln zu Antworten, ohne dass während des Vortrainings regionale Annotationen benötigt werden. Wir hoffen, dass unsere Erkenntnisse zur vertieften wissenschaftlichen Verständnis und praktischen Anwendung von VQA beitragen. Der Quellcode und die Merkmale werden verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp