HyperAIHyperAI
vor 2 Monaten

Temporale dynamische Graph-LSTM für aktionsgesteuerte Videoobjekterkennung

Yuan Yuan; Xiaodan Liang; Xiaolong Wang; Dit-Yan Yeung; Abhinav Gupta
Temporale dynamische Graph-LSTM für aktionsgesteuerte Videoobjekterkennung
Abstract

In dieser Arbeit untersuchen wir ein schwach überwachtes Objekterkennungsframework. Die meisten existierenden Frameworks konzentrieren sich darauf, Objekterkennungsalgorithmen anhand statischer Bilder zu trainieren. Allerdings scheitern diese Algorithmen oft an der Generalisierung auf Videos aufgrund des bestehenden Domänenverschiebungsproblems (domain shift). Daher untersuchen wir das direkte Lernen dieser Erkennungsalgorithmen aus langweiligen Videos alltäglicher Aktivitäten. Anstelle von Begrenzungsrahmen (bounding boxes) erforschen wir die Verwendung von Aktionbeschreibungen als Überwachung, da sie relativ einfach zu sammeln sind. Ein häufiges Problem ist jedoch, dass interessante Objekte, die nicht in menschlichen Aktionen involviert sind, in globalen Aktionbeschreibungen fehlen, was als "fehlende Etiketten" (missing labels) bekannt ist. Um dieses Problem anzugehen, schlagen wir ein neues temporales dynamisches Graph-Long-Short-Term-Memory-Netzwerk (TD-Graph LSTM) vor. Das TD-Graph LSTM ermöglicht globale zeitliche Inferenz durch die Konstruktion eines dynamischen Graphen, der auf den zeitlichen Korrelationen von Objektvorschlägen basiert und das gesamte Video abdeckt. Das Problem der fehlenden Etiketten für einzelne Frames kann dadurch erheblich gemindert werden, indem Wissen zwischen korrelierten Objektvorschlägen im gesamten Video übertragen wird. Ausführliche Evaluierungen an einem umfangreichen Datensatz alltäglicher Aktivitäten (z.B., Charades) zeigen die Überlegenheit unseres vorgeschlagenen Ansatzes. Wir veröffentlichen zudem Annotationen von Objekt-Begrenzungsrahmen für mehr als 5.000 Frames im Charades-Datensatz. Wir glauben, dass diese annotierten Daten auch anderen Forschungen zur objektbasierten Erkennung in Videos in Zukunft zugutekommen werden.

Temporale dynamische Graph-LSTM für aktionsgesteuerte Videoobjekterkennung | Neueste Forschungsarbeiten | HyperAI