Lernmodelle für Aktionen und Person-Objekt-Interaktionen mit Transfer auf Fragebeantwortung

Dieses Papier schlägt tief konvolutive Netzwerkmodelle vor, die lokale und globale Kontextinformationen nutzen, um Aktivitätslabels von Menschen in Stillbildern vorherzusagen. Diese Modelle erzielen den aktuellen Stand der Technik auf zwei neueren Datensätzen, die jeweils Hunderte von Labels enthalten. Um das Fehlen von Aufsicht auf der Ebene einzelner Personinstanzen zu bewältigen, verwenden wir das Multiple-Instance-Lernen, und um unbalancierte Trainingsdaten zu handhaben, wenden wir gewichtete Verlustfunktionen an. Darüber hinaus zeigen wir, wie spezialisierte Merkmale, die auf diesen Datensätzen trainiert wurden, verwendet werden können, um die Genauigkeit bei der visuellen Fragebeantwortung (VQA) in Form von mehrfachauswählbaren Lückenfüllfragen (Visual Madlibs) zu verbessern. Insbesondere adressieren wir zwei Arten von Fragen zur Personaktivität und zum Personen-Objekt-Verhältnis und demonstrieren Verbesserungen gegenüber generischen Merkmalen, die für die Klassifizierungsaufgabe des ImageNet-Datensatzes trainiert wurden.