HyperAIHyperAI
vor 2 Monaten

Permutationsbewusste Aktionensegmentierung durch unsupervises Frame-to-Segment-Alignment

Quoc-Huy Tran; Ahmed Mehmood; Muhammad Ahmed; Muhammad Naufil; Anas Zafar; Andrey Konin; M. Zeeshan Zia
Permutationsbewusste Aktionensegmentierung durch unsupervises Frame-to-Segment-Alignment
Abstract

Dieses Papier präsentiert ein unüberwachtes, transformerbasiertes Framework für die temporale Aktivitätssegmentierung, das nicht nur framebasierte Hinweise, sondern auch segmentbasierte Hinweise ausnutzt. Dies steht im Gegensatz zu früheren Methoden, die häufig nur auf framebasierten Informationen basieren. Unser Ansatz beginnt mit einem framebasierten Vorhersagemodul, das durch einen Transformer-Encoder frameweise Aktionsklassen schätzt. Das framebasierte Vorhersagemodul wird durch temporale optimale Transportmethoden (temporal optimal transport) unüberwacht trainiert. Um segmentbasierte Informationen zu nutzen, verwenden wir ein segmentbasiertes Vorhersagemodul und ein Modul zur Zuordnung von Frames zu Segmente. Das erstere beinhaltet einen Transformer-Decoder zur Schätzung von Videotranskripten, während das letztere framebasierte Merkmale mit segmentbasierten Merkmalen abgleicht und permutationsbewusste Segmentierungsergebnisse liefert. Darüber hinaus haben wir uns von der temporalen optimalen Transportmethode inspirieren lassen und einfache, aber effektive Pseudolabels für die unüberwachte Trainierung der oben genannten Module eingeführt. Unsere Experimente anhand vier öffentlicher Datensätze, nämlich 50 Salads, YouTube Instructions, Breakfast und Desktop Assembly zeigen, dass unser Ansatz vergleichbare oder bessere Leistungen als frühere Methoden in der unüberwachten Aktivitätssegmentierung erzielt.

Permutationsbewusste Aktionensegmentierung durch unsupervises Frame-to-Segment-Alignment | Neueste Forschungsarbeiten | HyperAI