HyperAIHyperAI

Command Palette

Search for a command to run...

Benötigen wir wirklich zeitliche Faltungen in der Aktionssegmentierung?

Dazhao Du Bing Su Yu Li Zhongang Qi Lingyu Si Ying Shan

Zusammenfassung

Die Aktionsklassifikation hat erhebliche Fortschritte gemacht, doch die Segmentierung und Erkennung von Aktionen in langen, ungeschnittenen Videos bleibt weiterhin eine herausfordernde Aufgabe. Die meisten modernsten Ansätze konzentrieren sich auf die Entwicklung von zeitbasierten Faltungsmodellen, wobei jedoch die Flexibilität der zeitlichen Faltungen eingeschränkt ist und die Modellierung langfristiger zeitlicher Abhängigkeiten Schwierigkeiten bereitet, was das Potenzial dieser Modelle einschränkt. Transformer-basierte Modelle mit anpassungsfähigen und sequenzmodellierenden Fähigkeiten wurden kürzlich in verschiedenen Aufgaben eingesetzt. Allerdings limitieren das Fehlen von induktiven Voreingenommenheiten und die ineffiziente Behandlung langer Videosequenzen die Anwendung von Transformer in der Aktionssegmentierung. In diesem Artikel entwickeln wir ein reines Transformer-basiertes Modell ohne zeitliche Faltungen, indem wir zeitliche Abtastung integrieren, und nennen es Temporal U-Transformer (TUT). Die U-Transformer-Architektur reduziert die Komplexität und integriert eine induktive Voreingenommenheit, die besagt, dass benachbarte Frames eher der gleichen Klasse angehören, doch die Verwendung grober Auflösungen führt zu Fehlklassifizierungen von Grenzflächen. Wir beobachten, dass die Ähnlichkeitsverteilung zwischen einer Grenzflächenebene und ihren Nachbarbildern davon abhängt, ob die Grenzflächenebene den Beginn oder das Ende eines Aktionssegments markiert. Daraus leiten wir einen grenzbeachtenden Verlust ab, der auf der Verteilung der Ähnlichkeitswerte zwischen Bildern aus den Aufmerksamkeitsmodulen basiert, um die Fähigkeit zur Erkennung von Grenzflächen zu verbessern. Ausführliche Experimente belegen die Wirksamkeit unseres Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp