Effiziente zeitliche Aktionssegmentierung mittels grenzorientierter Abstimmung von Abfragen

Obwohl die Leistungsfähigkeit der zeitlichen Aktionssegmentierung (Temporal Action Segmentation, TAS) in den letzten Jahren erheblich gestiegen ist, erfordert die Erzielung vielversprechender Ergebnisse oft einen hohen Rechenaufwand aufgrund dichter Eingabedaten, komplexer Modellarchitekturen und ressourcenintensiver Nachverarbeitung. Um die Effizienz zu verbessern, ohne die Leistung zu beeinträchtigen, präsentieren wir einen neuen Ansatz, der sich auf die Klassifikation einzelner Segmente konzentriert. Durch die Nutzung der Fähigkeiten von Transformers tokenisieren wir jeden Videosegment als ein Instanz-Token, das eine inhärente Instanzsegmentierung beinhaltet. Um eine effiziente Aktionssegmentierung zu ermöglichen, führen wir BaFormer ein – ein grenzengewahrtes Transformer-Netzwerk. Es verwendet Instanzabfragen zur Instanzsegmentierung und eine globale Abfrage zur klassenunabhängigen Grenzvorhersage, wodurch kontinuierliche Segmentvorschläge entstehen. Während der Inferenz wendet BaFormer eine einfache, aber effektive Abstimmungsstrategie an, um die segmentweise Grenzklasse basierend auf der Instanzsegmentierung zu klassifizieren. Erstaunlicherweise reduziert BaFormer als ein Einphasenansatz die Rechenkosten erheblich und benötigt lediglich 6 % der Laufzeit im Vergleich zur state-of-the-art-Methode DiffAct, während gleichzeitig eine bessere oder vergleichbare Genauigkeit auf mehreren gängigen Benchmarks erreicht wird. Der Quellcode für dieses Projekt ist öffentlich unter https://github.com/peiyao-w/BaFormer verfügbar.