HyperAIHyperAI
vor 11 Tagen

Zeitliche Aktionsspektralisierung mit verbesserter instantaner Unterscheidbarkeit

Dingfeng Shi, Qiong Cao, Yujie Zhong, Shan An, Jian Cheng, Haogang Zhu, Dacheng Tao
Zeitliche Aktionsspektralisierung mit verbesserter instantaner Unterscheidbarkeit
Abstract

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) zielt darauf ab, alle Aktionsgrenzen und deren zugehörige Kategorien in einem ungeschnittenen Video zu erkennen. Die oft unscharfen Grenzen von Aktionen in Videos führen häufig zu ungenauen Vorhersagen der Aktionsgrenzen durch bestehende Methoden. Um dieses Problem zu lösen, schlagen wir einen einstufigen Ansatz namens TriDet vor. Zunächst führen wir einen Trident-Head ein, der die Aktionsgrenze über eine geschätzte relative Wahrscheinlichkeitsverteilung in der Nähe der Grenze modelliert. Anschließend analysieren wir das Rank-Loss-Problem (d. h. die Verschlechterung der Moment-Diskriminierbarkeit) bei Transformer-basierten Methoden und stellen eine effiziente, skalierbare Granularitäts-Wahrnehmung (Scalable-Granularity Perception, SGP)-Schicht vor, um dieses Problem zu mildern. Um die Grenze der Moment-Diskriminierbarkeit im Video-Backbone weiter zu erweitern, nutzen wir die starke Repräsentationsfähigkeit vortrainierter großer Modelle und untersuchen deren Leistungsfähigkeit in der TAD. Schließlich berücksichtigen wir den ausreichenden räumlich-zeitlichen Kontext für die Klassifikation und entwerfen ein entkoppeltes Feature-Pyramid-Netzwerk mit getrennten Feature-Pyramiden, um reichhaltigen räumlichen Kontext aus dem großen Modell für die Lokalisierung zu integrieren. Experimentelle Ergebnisse belegen die Robustheit von TriDet sowie seine state-of-the-art-Leistung auf mehreren TAD-Datensätzen, einschließlich hierarchischer (multilabel) TAD-Datensätze.

Zeitliche Aktionsspektralisierung mit verbesserter instantaner Unterscheidbarkeit | Neueste Forschungsarbeiten | HyperAI