SRNet: Verbesserung der Generalisierbarkeit bei der 3D-Gestenerkennung durch einen Split-and-Recombine-Ansatz

Selten auftretende oder in einem Trainingsdatensatz nicht vorhandene menschliche Körperhaltungen stellen eine Herausforderung für Netzwerke dar, diese vorherzusagen. Ähnlich wie das Long-Tailed-Verteilungsproblem im Bereich der visuellen Erkennung beschränkt die geringe Anzahl von Beispielen solcher Haltungen die Fähigkeit von Netzwerken, diese zu modellieren. Interessanterweise leiden lokale Haltungsverteilungen weniger unter dem Long-Tailed-Problem, da lokale Gelenkkonfigurationen innerhalb einer seltenen Haltung möglicherweise in anderen Haltungen des Trainingsdatensatzes vorkommen können und somit weniger selten sind. Wir schlagen vor, diesen Sachverhalt für eine bessere Generalisierung auf seltene und unbekannte Haltungen auszunutzen. Konkret teilt unsere Methode den Körper in lokale Regionen auf und verarbeitet diese in separaten Netzwerkzweigen, wobei wir die Eigenschaft ausnutzen, dass die Position eines Gelenks hauptsächlich von den Gelenken innerhalb seiner lokalen Körperregion abhängt. Die globale Kohärenz wird durch die Rekombination des globalen Kontexts aus dem übrigen Körper in jeden Zweig als niedrigdimensionalen Vektor gewährleistet. Durch die Reduktion der Dimensionalität weniger relevanter Körperbereiche spiegelt die Verteilung des Trainingsdatensatzes innerhalb der Netzwerkzweige die Statistik lokaler Haltungen enger wider als die der globalen Körperhaltungen, ohne dabei Informationen zu verlieren, die für die Gelenkinferenz wichtig sind. Der vorgeschlagene Split-and-Recombine-Ansatz, genannt SRNet, lässt sich problemlos sowohl für Einzelbild- als auch für zeitliche Modelle anpassen und führt zu signifikanten Verbesserungen bei der Vorhersage seltener und unbekannter Haltungen.