HyperAIHyperAI
vor 11 Tagen

TriDet: Temporale Aktionsdetektion mit relativer Randmodellierung

Dingfeng Shi, Yujie Zhong, Qiong Cao, Lin Ma, Jia Li, Dacheng Tao
TriDet: Temporale Aktionsdetektion mit relativer Randmodellierung
Abstract

In diesem Paper präsentieren wir einen einstufigen Ansatz namens TriDet für die zeitliche Aktionsdetektion. Bestehende Methoden leiden häufig unter ungenauen Grenzvorhersagen aufgrund mehrdeutiger Aktionsgrenzen in Videos. Um dieses Problem zu mildern, schlagen wir einen neuartigen Trident-Kopf vor, der die Aktionsgrenzen mittels einer geschätzten relativen Wahrscheinlichkeitsverteilung in der Nähe der Grenze modelliert. In der Feature-Pyramide von TriDet führen wir eine effiziente Schicht namens Scalable-Granularity Perception (SGP) ein, um das Rangverlustproblem des Selbst-Attention-Moduls, das in Video-Features auftritt, zu verringern und Informationen über verschiedene zeitliche Granularitäten hinweg zu aggregieren. Durch die Kombination des Trident-Kopfs und der SGP-basierten Feature-Pyramide erreicht TriDet eine state-of-the-art-Leistung auf drei anspruchsvollen Benchmarks: THUMOS14, HACS und EPIC-KITCHEN 100, wobei die Berechnungskosten im Vergleich zu vorherigen Ansätzen niedriger sind. Beispielsweise erreicht TriDet auf THUMOS14 eine durchschnittliche mAP von $69,3\%$, was die bisher beste Leistung um $2,5\%$ übertrifft, jedoch nur mit $74,6\%$ der Latenz. Der Quellcode ist unter https://github.com/sssste/TriDet verfügbar.

TriDet: Temporale Aktionsdetektion mit relativer Randmodellierung | Neueste Forschungsarbeiten | HyperAI