vor 15 Tagen

Benötigen wir wirklich zeitliche Faltungen in der Aktionssegmentierung?

Dazhao Du, Bing Su, Yu Li, Zhongang Qi, Lingyu Si, Ying Shan

Abstract

Die Aktionsklassifikation hat erhebliche Fortschritte gemacht, doch die Segmentierung und Erkennung von Aktionen in langen, ungeschnittenen Videos bleibt weiterhin eine herausfordernde Aufgabe. Die meisten modernsten Ansätze konzentrieren sich auf die Entwicklung von zeitbasierten Faltungsmodellen, wobei jedoch die Flexibilität der zeitlichen Faltungen eingeschränkt ist und die Modellierung langfristiger zeitlicher Abhängigkeiten Schwierigkeiten bereitet, was das Potenzial dieser Modelle einschränkt. Transformer-basierte Modelle mit anpassungsfähigen und sequenzmodellierenden Fähigkeiten wurden kürzlich in verschiedenen Aufgaben eingesetzt. Allerdings limitieren das Fehlen von induktiven Voreingenommenheiten und die ineffiziente Behandlung langer Videosequenzen die Anwendung von Transformer in der Aktionssegmentierung. In diesem Artikel entwickeln wir ein reines Transformer-basiertes Modell ohne zeitliche Faltungen, indem wir zeitliche Abtastung integrieren, und nennen es Temporal U-Transformer (TUT). Die U-Transformer-Architektur reduziert die Komplexität und integriert eine induktive Voreingenommenheit, die besagt, dass benachbarte Frames eher der gleichen Klasse angehören, doch die Verwendung grober Auflösungen führt zu Fehlklassifizierungen von Grenzflächen. Wir beobachten, dass die Ähnlichkeitsverteilung zwischen einer Grenzflächenebene und ihren Nachbarbildern davon abhängt, ob die Grenzflächenebene den Beginn oder das Ende eines Aktionssegments markiert. Daraus leiten wir einen grenzbeachtenden Verlust ab, der auf der Verteilung der Ähnlichkeitswerte zwischen Bildern aus den Aufmerksamkeitsmodulen basiert, um die Fähigkeit zur Erkennung von Grenzflächen zu verbessern. Ausführliche Experimente belegen die Wirksamkeit unseres Modells.