vor 2 Monaten

Tipps und Tricks für visuelle Fragebeantwortung: Erkenntnisse aus der Challenge 2017

Damien Teney; Peter Anderson; Xiaodong He; Anton van den Hengel

Abstract

Dieses Papier stellt ein neuestes Modell für visuelle Fragebeantwortung (VQA) vor, das den ersten Platz im VQA-Challenge 2017 errang. VQA ist eine Aufgabe von großer Bedeutung für die Forschung im Bereich Künstliche Intelligenz, bedingt durch ihre multimodale Natur, klares Evaluationsprotokoll und potenzielle Anwendungen in der Realwelt. Die Leistung tiefgreifender Neuronaler Netze bei VQA hängt stark von der Wahl der Architekturen und Hyperparameter ab. Um weitere Forschungen in diesem Bereich zu unterstützen, beschreiben wir unser hochleistungsfähiges, jedoch relativ einfaches Modell im Detail. Durch eine umfangreiche Exploration von Architekturen und Hyperparametern, die mehr als 3.000 GPU-Stunden umfasste, identifizierten wir Strategien und Tricks, die zu seinem Erfolg beitrugen: Sigmoid-Ausgaben, weiche Trainingsziele, Bildmerkmale aus bottom-up-Attention (von unten nach oben gerichtete Aufmerksamkeit), gatterte tanh-Aktivierungen, Ausgabeeinbettungen, die mit Hilfe von GloVe und Google Images initialisiert wurden, große Minibatches sowie kluge Shuffling-Techniken für Trainingsdaten. Wir geben eine detaillierte Analyse ihres Einflusses auf die Leistung, um anderen bei der angemessenen Auswahl zu helfen.