Command Palette
Search for a command to run...
Häufig Unhäufig: Semantische Sparsität in der Situationserkennung
Häufig Unhäufig: Semantische Sparsität in der Situationserkennung
Yatskar Mark Ordonez Vicente Zettlemoyer Luke Farhadi Ali
Zusammenfassung
Semantische Sparsität stellt eine häufige Herausforderung bei strukturierten visuellen Klassifikationsaufgaben dar; wenn der Ausgaberaum komplex ist, sind die meisten möglichen Vorhersagen selten, wenn überhaupt, im Trainingsdatensatz zu finden. Diese Arbeit untersucht die semantische Sparsität im Kontext der Situationserkennung, der Aufgabe, strukturierte Zusammenfassungen dessen zu generieren, was in Bildern geschieht, einschließlich Aktivitäten, Objekte und der Rollen, die Objekte innerhalb der Aktivität spielen. Für dieses Problem stellen wir empirisch fest, dass die meisten Kombinationen aus Objekt-Rolle selten sind, und dass aktuelle State-of-the-Art-Modelle in diesem sparsen Datenumfeld erheblich unterdurchschnittlich abschneiden. Wir vermeiden viele dieser Fehler durch (1) die Einführung einer neuen Tensor-Kompositions-Funktion, die lernt, Beispiele über verschiedene Objekt-Rolle-Kombinationen hinweg zu teilen, und (2) die semantische Erweiterung unserer Trainingsdaten durch automatisch gesammelte Beispiele seltener Ausgabekombinationen mithilfe von Webdaten. Wenn diese Ansätze in ein vollständiges CRF-basiertes Modell für strukturierte Vorhersage integriert werden, übertrifft der tensorbasierte Ansatz die bestehenden State-of-the-Art-Methoden bei der Top-5-Genauigkeit für Verben und Nomen-Rolle um jeweils 2,11 % und 4,40 %. Die Hinzufügung von 5 Millionen Bildern mittels unserer semantischen Erweiterungstechniken führt zu weiteren relativen Verbesserungen um 6,23 % und 9,57 % bei der Top-5-Genauigkeit für Verben und Nomen-Rolle.