Geführte Aufmerksamkeit für verständliche Bewegungsbeschreibung

In letzter Zeit wurde umfangreiche und vielfältige Arbeit im Bereich der textbedingten Generierung menschlicher Bewegungen durchgeführt. Der Fortschritt in entgegengesetzte Richtung, der Bewegungsbeschreibung (motion captioning), hat jedoch weniger vergleichbare Fortschritte gesehen. In dieser Arbeit stellen wir ein neuartiges Architekturdesign vor, das die Qualität der Textgenerierung durch Betonung der Interpretierbarkeit mittels räumlich-zeitlicher und adaptiver Aufmerksamkeitsmechanismen verbessert. Um menschenähnliches Denken zu fördern, schlagen wir Methoden zur Steuerung der Aufmerksamkeit während des Trainings vor, wobei über die Zeit relevante Skelettbereiche hervorgehoben und bewegungsbezogene Wörter unterschieden werden. Wir diskutieren und quantifizieren die Interpretierbarkeit unseres Modells unter Verwendung relevanter Histogramme und Dichteverteilungen. Darüber hinainaus nutzen wir die Interpretierbarkeit, um feingranulare Informationen über menschliche Bewegungen abzuleiten, einschließlich Aktionsskalierung, Körperteilidentifikation und Unterscheidung von bewegungsbezogenen Wörtern. Schließlich diskutieren wir die Übertragbarkeit unserer Ansätze auf andere Aufgaben. Unsere Experimente zeigen, dass die Steuerung der Aufmerksamkeit zu interpretierbaren Beschreibungen führt und gleichzeitig die Leistung gegenüber Systemen mit höherer Parameterzahl und ohne Interpretierbarkeit verbessert. Der Code ist verfügbar unter: https://github.com/rd20karim/M2T-Interpretable.请注意,"action localization" 被翻译为 "Aktionsskalierung" 可能不够准确。根据上下文,更合适的翻译可能是 "Aktionserkennung" 或 "Aktionssynchronisierung"。如果需要进一步调整,请告知具体含义。