HyperAIHyperAI

Command Palette

Search for a command to run...

CTVIS: Konsistente Training für Online-Video-Instanzsegmentierung

Kaining Ying Qing Zhong Weian Mao Zhenhua Wang Hao Chen Lin Yuanbo Wu Yifan Liu Chengxiang Fan Yunzhi Zhuge Chunhua Shen

Zusammenfassung

Die Unterscheidung von Instanz-Embeddings spielt eine entscheidende Rolle bei der Zuordnung von Instanzen über die Zeit hinweg für Online-Video-Instanzsegmentierung (VIS). Die Lernung von Instanz-Embeddings erfolgt direkt durch eine kontrastive Verlustfunktion, die auf kontrastiven Elementen (CIs, contrastive items) basiert, wobei CIs Mengen aus Anchor-/Positive-/Negative-Embeddings darstellen. Rezenten Ansätzen zur Online-VIS wird lediglich ein Referenzframe zur Generierung der CIs herangezogen, was wir als unzureichend für die Entwicklung hochdiskriminativer Embeddings erachten. Intuitiv könnte eine Möglichkeit, die CIs zu verbessern, darin bestehen, die Inferenzphase während des Trainings zu replizieren. Dementsprechend schlagen wir eine einfache, jedoch wirksame Trainingsstrategie vor, die als Consistent Training for Online VIS (CTVIS) bezeichnet wird und darauf abzielt, die Trainings- und Inferenzpfade hinsichtlich der Erstellung von CIs zu vereinheitlichen. Konkret konstruiert CTVIS CIs durch Verwendung der momentum-gemittelten Embeddings und der Speichermechanismen der Memory-Bank sowie durch Hinzufügen von Rauschen zu den relevanten Embeddings. Diese Erweiterung ermöglicht eine zuverlässige Vergleichbarkeit zwischen den Embeddings aktueller Instanzen und den stabilen Darstellungen historischer Instanzen, wodurch ein Vorteil bei der Modellierung typischer VIS-Herausforderungen wie Verdeckung, Re-Identifikation und Deformation entsteht. Empirisch übertrifft CTVIS die derzeitigen State-of-the-Art-VIS-Modelle um bis zu +5,0 Punkte auf drei VIS-Benchmarks, darunter YTVIS19 (55,1 % AP), YTVIS21 (50,1 % AP) und OVIS (35,5 % AP). Darüber hinaus stellen wir fest, dass Pseudovideos, die aus Bildern transformiert wurden, robuste Modelle erzeugen können, die selbst vollständig überwachte Ansätze übertreffen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp