Verschiedene menschliche Bewegungsprognose durch Gumbel-Softmax-Sampling aus einem Hilfsraum

Die Vorhersage vielfältiger menschlicher Bewegungen zielt darauf ab, aus einer Folge beobachteter Pose-Positionen mehrere mögliche zukünftige Pose-Sequenzen vorherzusagen. Frühere Ansätze verwenden typischerweise tiefe generative Netzwerke, um die bedingte Verteilung der Daten zu modellieren, und ziehen anschließend zufällig Ergebnisse aus dieser Verteilung. Obwohl unterschiedliche Ergebnisse erzielt werden können, sind diese meist die wahrscheinlichsten und weisen daher nicht ausreichend Vielfalt auf. Kürzlich vorgestellte Verfahren lernen explizit mehrere Modi der bedingten Verteilung mittels eines deterministischen Netzwerks, können jedoch nur eine festgelegte Anzahl von Modi innerhalb eines begrenzten Bereichs abdecken. In diesem Paper stellen wir eine neuartige Sampling-Strategie vor, die es ermöglicht, äußerst vielfältige Ergebnisse aus einer unbalancierten multimodalen Verteilung zu ziehen, die mittels eines tiefen generativen Modells gelernt wurde. Unser Ansatz funktioniert, indem ein Hilfsraum generiert wird, und zufälliges Sampling aus diesem Hilfsraum geschickt so gestaltet wird, dass es äquivalent zu diversen Samples aus der Zielverteilung ist. Wir schlagen eine einfache, jedoch effektive Netzwerkarchitektur vor, die diese neuartige Sampling-Strategie umsetzt und eine Gumbel-Softmax-Koeffizienten-Matrix-Sampling-Methode sowie eine aggressive Diversity-fördernde Hinge-Loss-Funktion integriert. Ausführliche Experimente zeigen, dass unsere Methode sowohl die Vielfalt als auch die Genauigkeit der Proben im Vergleich zu vorherigen State-of-the-Art-Sampling-Verfahren erheblich verbessert. Der Quellcode und vortrainierte Modelle sind unter https://github.com/Droliven/diverse_sampling verfügbar.