vor 2 Monaten

Objects2Action: Klassifizierung und Lokalisierung von Aktionen ohne Video-Beispiele

Mihir Jain; Jan C. van Gemert; Thomas Mensink; Cees G. M. Snoek

Abstract

Das Ziel dieser Arbeit ist es, Aktionen in Videos zu erkennen, ohne Beispiele dafür benötigen zu müssen. Im Gegensatz zu traditionellen Zero-Shot-Ansätzen verlangen wir nicht die Gestaltung und Spezifizierung von Attributklassifikatoren und Klassen-zu-Attribut-Zuordnungen, um einen Transfer von gesehenen Klassen auf ungesehene Klassen zu ermöglichen. Unser wesentlicher Beitrag ist objects2action, eine semantische Wortrepräsentation, die durch ein Skip-Gram-Modell aus Tausenden von Objektkategorien aufgespannt wird. Aktionen werden anhand einer konvexen Kombination von Aktion-Objekt-Affinitäten einem Objektencodierung von ungesehenen Videos zugeordnet. Unsere semantische Repräsentation hat drei Hauptmerkmale, um den Besonderheiten von Aktionen gerecht zu werden. Erstens schlagen wir einen Mechanismus vor, um mehrwortige Beschreibungen von Aktionen und Objekten auszuwerten. Zweitens integrieren wir die automatisierte Auswahl der am stärksten reagierenden Objekte pro Aktion. Schließlich zeigen wir, wie unser Zero-Shot-Ansatz zur räumlich-zeitlichen Lokalisierung von Aktionen in Videos erweitert werden kann. Experimente anhand vierer Aktionsdatensätze demonstrieren das Potenzial unserer Methode.