HyperAIHyperAI
vor 2 Monaten

TransRAC: Codierung von mehrskaligen zeitlichen Korrelationen mit Transformers für die Zählung wiederholter Aktionen

Huazhang Hu; Sixun Dong; Yiqun Zhao; Dongze Lian; Zhengxin Li; Shenghua Gao
TransRAC: Codierung von mehrskaligen zeitlichen Korrelationen mit Transformers für die Zählung wiederholter Aktionen
Abstract

Das Zählen wiederholter Aktionen ist in menschlichen Aktivitäten wie körperlicher Bewegung weit verbreitet. Bestehende Methoden konzentrieren sich auf das Zählen wiederholter Aktionen in kurzen Videos, was es schwierig macht, längere Videos in realistischeren Szenarien zu verarbeiten. Im datengeführten Zeitalter wird die Verschlechterung dieser Generalisierungsfähigkeit hauptsächlich der fehlenden Langzeitvideo-Datensätze zugeschrieben. Um diesen Mangel zu kompensieren, stellen wir einen neuen, groß angelegten Datensatz für das Zählen wiederholter Aktionen vor, der eine breite Palette von Videolängen abdeckt und realistischere Situationen berücksichtigt, in denen Aktionen im Video unterbrochen oder inkonsistent sind. Darüber hinaus bieten wir eine detaillierte Annotation der Aktionzyklen anstelle einer einfachen numerischen Anzahl. Dieser Datensatz enthält 1.451 Videos mit etwa 20.000 Annotationen und stellt eine größere Herausforderung dar. Für das Zählen wiederholter Aktionen in realistischeren Szenarien schlagen wir ferner vor, mehrskalige zeitliche Korrelation mit Transformatoren zu kodieren, die sowohl Leistung als auch Effizienz berücksichtigen können. Mit Hilfe der detaillierten Annotation der Aktionzyklen schlagen wir außerdem eine Dichteabbildungsregression-basierte Methode vor, um den Aktionzyklus zu prognostizieren, was bessere Ergebnisse mit ausreichender Interpretierbarkeit liefert. Unsere vorgeschlagene Methode übertrifft die besten bisher bekannten Methoden auf allen Datensätzen und erzielt auch bessere Ergebnisse auf unbekannten Datensätzen ohne Feinabstimmung (Fine-Tuning). Der Datensatz und der Code sind verfügbar.请注意,这里“细粒度注释”被翻译为“detaillierte Annotation”,而“密度图回归”则被翻译为“Dichteabbildungsregression”。这些术语在德语中是通用的专业术语。如果您需要进一步的调整或有特定的术语偏好,请告知我。