HyperAIHyperAI
vor 9 Tagen

Eidetisches 3D LSTM: Ein Modell für die Videovorhersage und darüber hinaus

{Li Fei-Fei, Li-Jia Li, Ming-Hsuan Yang, Mingsheng Long, Yunbo Wang, Lu Jiang}
Eidetisches 3D LSTM: Ein Modell für die Videovorhersage und darüber hinaus
Abstract

Spatiotemporale prädiktive Lernverfahren gelten zwar seit langem als vielversprechende selbstüberwachte Methode zur Merkmalslernung, zeigen jedoch selten ihre Wirksamkeit über die Vorhersage zukünftiger Videos hinaus. Der Grund hierfür liegt darin, dass es schwierig ist, gute Repräsentationen sowohl für kurzfristige Frame-Abhängigkeiten als auch für langfristige hochwertige Beziehungen zu erlernen. Wir präsentieren ein neues Modell, das Eidetische 3D-LSTM (E3D-LSTM), das 3D-Faltungen in RNNs integriert. Die eingebetteten 3D-Faltungen machen die lokalen Perzeptoren der RNNs bewegungsabhängig und ermöglichen es der Speicherzelle, verbesserte kurzfristige Merkmale zu speichern. Für langfristige Beziehungen sorgen wir durch eine gatemodierte Selbst-Attention-Modul, das den aktuellen Speicherzustand mit dessen historischen Aufzeichnungen interagieren lässt. Wir bezeichnen diesen Speicherübergangsmechanismus als eidetisch, da er in der Lage ist, die gespeicherten Erinnerungen effektiv über mehrere Zeitpunkte hinweg zu rekonstruieren, selbst nach längeren Störungen. Zunächst evaluieren wir das E3D-LSTM-Netzwerk an etablierten Datensätzen zur zukünftigen Videovorhersage und erreichen dabei den Stand der Technik. Anschließend zeigen wir, dass das E3D-LSTM-Netzwerk auch bei der frühen Aktivitätserkennung gut abschneidet, indem es auf Basis nur begrenzter Videoframes vorhersagt, was gerade geschieht oder geschehen wird. Dieser Aufgabenbereich passt gut zur Videovorhersage, da Handlungsabsichten und -tendenzen entscheidend für eine herausragende Leistung sind.