Pythia v0.1: Der Gewinner des VQA-Challenges 2018

Dieses Dokument beschreibt Pythia v0.1, den siegreichen Beitrag des A-STAR-Teams von Facebook AI Research (FAIR) zum VQA-Challenge 2018.Unser Ausgangspunkt ist eine modulare Neuausgestaltung des Bottom-Up Top-Down (Up-Down)-Modells. Wir zeigen, dass durch subtile, aber wichtige Änderungen an der Modellarchitektur und dem Lernratenplan, das Feinjustieren von Bildmerkmalen sowie die Hinzufügung von Datenverstärkung, die Leistung des Up-Down-Modells auf dem VQA v2.0-Datensatz erheblich verbessert werden kann – von 65,67 % auf 70,22 %.Darüber hinainaus können wir durch die Verwendung einer vielfältigen Ensemble von Modellen, die mit unterschiedlichen Merkmalen und auf unterschiedlichen Datensätzen trainiert wurden, die „standardmäßige“ Ensembelmethode (d.h. dasselbe Modell mit verschiedenen Zufallssamen) um 1,31 % erheblich übertreffen. Insgesamt erreichen wir 72,27 % auf dem Test-Std-Split des VQA v2.0-Datensatzes. Unser vollständiger Code (Trainings-, Evaluations-, Datenverstärkungs- und Ensembelprozesse) sowie vorab trainierte Modelle sind öffentlich verfügbar unter: https://github.com/facebookresearch/pythia