Commonly Uncommon: Semantische Sparsamkeit in der Situationserkennung

Semantische Sparsamkeit ist eine häufige Herausforderung bei strukturierten visuellen Klassifikationsproblemen; wenn der Ausgaberaum komplex ist, werden die meisten möglichen Vorhersagen selten, wenn überhaupt, im Trainingsdatensatz beobachtet. Diese Arbeit untersucht die semantische Sparsamkeit im Kontext der Situationserkennung, der Aufgabe, strukturierte Zusammenfassungen dessen zu erstellen, was in Bildern geschieht, einschließlich Aktivitäten, Objekte und der Rollen, die diese Objekte innerhalb der Aktivität spielen. Für dieses Problem stellen wir empirisch fest, dass die meisten Kombinationen aus Objekt und Rolle selten sind und aktuelle Stand-of-the-Art-Modelle in diesem Bereich dünn besiedelter Daten erheblich unter ihrem Potenzial liegen. Wir vermeiden viele solche Fehler durch (1) die Einführung einer neuen Tensor-Kompositions-Funktion, die das Teilen von Beispielen zwischen Rollen-Substantiv-Kombinationen lernt und (2) durch semantisches Erweitern unseres Trainingsdatensatzes mit automatisch gesammelten Beispielen selten beobachteter Ausgaben mithilfe von Webdaten. Wenn diese Ansätze in einem vollständigen CRF-basierten strukturierten Vorhersagemodell integriert werden, übertrifft der tensorbasierte Ansatz den aktuellen Stand der Technik um 2,11 % und 4,40 % bezüglich der Top-5-Genauigkeit für Verben und Substantive-Rollen-Kombinationen. Die Hinzufügung von 5 Millionen Bildern mit unseren semantischen Erweiterungstechniken führt zu weiteren relativen Verbesserungen von 6,23 % und 9,57 % in der Top-5-Genauigkeit für Verben und Substantive-Rollen-Kombinationen.