HyperAIHyperAI
vor einem Monat

Zeitliche Relationales Denken in Videos

Bolei Zhou; Alex Andonian; Aude Oliva; Antonio Torralba
Zeitliche Relationales Denken in Videos
Abstract

Temporale relationale Inferenz, die Fähigkeit, sinnvolle Transformationen von Objekten oder Entitäten über die Zeit zu verknüpfen, ist eine grundlegende Eigenschaft intelligenter Arten. In dieser Arbeit stellen wir ein effektives und interpretierbares Netzwerkmodul vor, das Temporal Relation Network (TRN), das entwickelt wurde, um zeitliche Abhängigkeiten zwischen Videobildern auf mehreren Zeitskalen zu lernen und zu analysieren. Wir evaluieren TRN-ausgestattete Netze anhand von Aktivitätserkennungsaufgaben unter Verwendung dreier neuerer Videodatensätze – Something-Something, Jester und Charades –, die grundlegend auf temporalem relationalem Denken basieren. Unsere Ergebnisse zeigen, dass das vorgeschlagene TRN konvolutionellen neuronalen Netzen eine bemerkenswerte Fähigkeit verleiht, temporale Beziehungen in Videos zu entdecken. Durch nur spärlich ausgewählte Videobilder können TRN-ausgestattete Netze die Interaktionen zwischen Menschen und Objekten im Datensatz Something-Something sowie verschiedene menschliche Gesten im Datensatz Jester mit sehr wettbewerbsfähiger Leistung genau vorhersagen. TRN-ausgestattete Netze übertreffen zudem Zweistromnetze und 3D-Konvolutionnetze bei der Erkennung alltäglicher Aktivitäten im Datensatz Charades. Weitere Analysen erweisen, dass die Modelle intuitives und interpretierbares visuelles Allgemeinwissen in Videos erlernen.请注意,虽然您的要求中提到了“法语读者”,但您需要的是德语翻译。因此,我已根据德语的表达习惯进行了翻译。希望这能满足您的需求。