Das Erinnern an das Wichtige: Ein faktorisierter Mehrkopf-Abfrage- und Hilfs-Speicher-Stabilisierungsschema für die Vorhersage menschlicher Bewegungen

Menschen zeigen komplexe Bewegungen, die je nach durchgeführter Aufgabe, den eingeschlagenen Interaktionen sowie individuellen Präferenzen variieren. Daher stellt die Vorhersage zukünftiger Körperhaltungen basierend auf der Historie vorheriger Bewegungen eine herausfordernde Aufgabe dar. In diesem Artikel präsentieren wir einen innovativen tiefen neuronalen Netzwerkrahmen, der durch eine Hilfsspeicher-Technologie gestärkt ist, um die Modellierung historischer Kenntnisse zu verbessern. Konkret trennen wir aus den beobachteten Haltungssequenzen informationsbezogene Merkmale, die individuell, aufgabenbezogen oder sonstige Hilfsinformationen betreffen, und nutzen diese faktorisierten Merkmale, um die Speicherabfrage durchzuführen. Ein neuartiges Multi-Head-Wissensabrufverfahren nutzt diese faktorisierten Merkmaleinbettungen, um mehrere Abfrageoperationen über die in der Hilfsspeicher erfassten historischen Beobachtungen durchzuführen. Darüber hinaus macht unsere vorgeschlagene dynamische Maskierungsstrategie diesen Prozess der Merkmalsentfaltung dynamisch. Zwei neuartige Verlustfunktionen werden eingeführt, um die Vielfalt im Hilfsspeicher zu fördern, gleichzeitig aber auch die Stabilität der Speicherinhalte zu gewährleisten, sodass der Speicher auffällige, bedeutungsvolle Informationen identifizieren und speichern kann, die zur langfristigen Vorhersage zukünftiger Bewegungen beitragen – unabhängig von Datenungleichgewichten oder der Vielfalt der Eingabedatenverteilung. In umfangreichen Experimenten an zwei öffentlichen Benchmarks, Human3.6M und CMU-Mocap, zeigen wir, dass diese Entwurfsentscheidungen gemeinsam es dem vorgeschlagenen Ansatz ermöglichen, die derzeitigen Stand der Technik deutlich zu übertreffen: um mehr als 17 % auf dem Human3.6M-Datensatz und um mehr als 9 % auf dem CMU-Mocap-Datensatz.