Video Self-Stitching Graph Network für die zeitliche Aktionslokalisierung

Die zeitliche Lokalisierung von Aktionen (Temporal Action Localization, TAL) in Videos ist eine herausfordernde Aufgabe, insbesondere aufgrund der erheblichen Variation der zeitlichen Skalen von Aktionen. Kurze Aktionen machen in den meisten Datensätzen eine große Mehrheit aus, weisen jedoch tendenziell die schlechtesten Leistungswerte auf. In diesem Artikel greifen wir diese Herausforderung bei kurzen Aktionen auf und stellen eine mehrstufige, querskalige Lösung vor, die als Video Self-Stitching Graph Network (VSGN) bezeichnet wird. Die VSGN weist zwei zentrale Komponenten auf: Video Self-Stitching (VSS) und Cross-Scale Graph Pyramid Network (xGPN). Bei VSS konzentrieren wir uns auf einen kurzen Zeitabschnitt eines Videos und vergrößern ihn entlang der zeitlichen Dimension, um eine größere Skala zu erzeugen. Wir fügen den ursprünglichen Clip und seine vergrößerte Variante in einer einzigen Eingabefolge zusammen, um die ergänzenden Eigenschaften beider Skalen optimal zu nutzen. Die xGPN-Komponente erschließt darüber hinaus querskalige Korrelationen mittels einer Pyramide aus querskaligen Graph-Netzwerken, wobei jedes Netzwerk über ein hybrides Modul verfügt, das Merkmale sowohl zwischen verschiedenen Skalen als auch innerhalb derselben Skala aggregiert. Die VSGN verbessert nicht nur die Merkmalsdarstellung, sondern generiert zudem mehr positive Anchors für kurze Aktionen sowie mehr Trainingsbeispiele für kurze Aktionen. Experimente zeigen, dass die VSGN die Lokalisierungsgenauigkeit kurzer Aktionen deutlich verbessert und zudem die bisher beste Gesamtleistung auf den Datensätzen THUMOS-14 und ActivityNet-v1.3 erzielt.