Asynchrone zeitliche Felder für die Aktionserkennung

Aktionen sind mehr als nur Bewegungen und Trajektorien: Wir kochen, um zu essen, und halten ein Glas, um daraus zu trinken. Ein gründliches Verständnis von Videos erfordert es, über das Modellieren des äußeren Erscheinungsbildes hinauszugehen und über die Folge von Aktivitäten sowie höherstufige Konstrukte wie Absichten nachzudenken. Aber wie modellieren und denken wir darüber nach? Wir schlagen ein vollständig vernetztes zeitliches CRF-Modell (Conditional Random Field) vor, das verschiedene Aspekte von Aktivitäten einschließlich Objekte, Aktionen und Absichten berücksichtigt, wobei die Potentiale durch ein tiefes Netzwerk vorhergesagt werden. Die end-to-end-Ausbildung solcher strukturierten Modelle ist eine herausfordernde Aufgabe: Für die Inferenz und das Lernen müssen wir Minibatches erstellen, die aus ganzen Videos bestehen, was zu Minibatches mit nur wenigen Videos führt. Dies verursacht eine hohe Korrelation zwischen Datenpunkten, was zum Ausfall des Backpropagation-Algorithmus führen kann. Um dieser Herausforderung gerecht zu werden, präsentieren wir eine asynchrone Variationsinferenzmethode, die eine effiziente end-to-end-Ausbildung ermöglicht. Unsere Methode erreicht auf dem Charades-Benchmark eine Klassifikations-mAP von 22,4 % und übertreffen damit den aktuellen Stand der Technik (17,2 % mAP). Sie bietet zudem gleiche Verbesserungen bei der zeitlichen Lokalisierungsaufgabe.