HyperAIHyperAI

Command Palette

Search for a command to run...

Einen Einfachen Video-Segmentierer durch die Verfolgung von Objekten entlang Achsen-Trajektorien

Ju He; Qihang Yu; Inkyu Shin; Xueqing Deng; Alan Yuille; Xiaohui Shen; Liang-Chieh Chen

Zusammenfassung

Die Video-Segmentierung erfordert die konsistente Segmentierung und Verfolgung von Objekten über die Zeit hinweg. Aufgrund der quadratischen Abhängigkeit von der Eingabegröße stellen direkte Anwendungen von Selbst-Aufmerksamkeit (self-attention) bei hochaufgelösten Eingabe-Features für Video-Segmentierung erhebliche Herausforderungen dar, was oft zu einem Mangel an GPU-Speicherkapazität führt. Daher verwenden moderne Video-Segmentierer entweder eine Erweiterung eines Bild-Segmentierers ohne jegliche zeitliche Aufmerksamkeit oder greifen auf eine naive Fenster-Raum-Zeit-Aufmerksamkeit zurück. In dieser Arbeit stellen wir Axial-VS vor, einen allgemeinen und einfachen Rahmen, der Video-Segmentierer durch die Verfolgung von Objekten entlang achsparalleler Trajektorien verbessert. Das Framework löst die Video-Segmentierung in zwei Unterprobleme auf: Kurzfristige Segmentierung innerhalb eines Clips und langfristige Verfolgung zwischen verschiedenen Clips. Im ersten Schritt ergänzt Axial-VS einen standardmäßigen Clip-basierten Video-Segmentierer durch die vorgeschlagene achsparallele-Trajektorie-Aufmerksamkeit, wodurch Objekte sequentiell entlang der Höhe- und Breiten-Trajektorien innerhalb eines Clips verfolgt werden. Dies verbessert die zeitliche Konsistenz durch das Erfassen von Bewegungs-Trajektorien. Die achsparallele Zerlegung reduziert die Rechenaufwand für dichte Features erheblich und übertrifft die Fenster-Raum-Zeit-Aufmerksamkeit in Bezug auf die Segmentierungsqualität. Im zweiten Schritt setzen wir die achsparallele-Trajektorie-Aufmerksamkeit zusätzlich auf die Objektanfragen in Clip-basierten Segmentierern ein, welche gelernt werden, um Objektinformationen zu kodieren. Dies unterstützt die Verfolgung von Objekten zwischen verschiedenen Clips und ermöglicht eine konsistente Segmentierung über das gesamte Video hinweg. Ohne zusätzliche Optimierungen zeigt Axial-VS erstklassige Ergebnisse bei Benchmarks für Video-Segmentierung, was seine Effektivität bei der Überwindung der Einschränkungen moderner Clip-basierter Video-Segmentierer unterstreicht. Der Quellcode und die Modelle sind unter https://github.com/TACJu/Axial-VS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp