HyperAIHyperAI

Command Palette

Search for a command to run...

Integration von Boxes und Masks: Ein Multi-Object-Framework für die einheitliche visuelle Verfolgung und Segmentierung

Yuanyou Xu Zongxin Yang Yi Yang

Zusammenfassung

Die räumlich-zeitliche Verfolgung eines oder mehrerer Objekte ist ein zentrales Ziel in der visuellen Objektverfolgung (Visual Object Tracking, VOT) und der Video-Objektsegmentierung (Video Object Segmentation, VOS). In einigen Studien wurden Verfolgung und Segmentierung gemeinsam betrachtet, doch zeigen diese häufig eine unvollständige Kompatibilität zwischen Box- und Maskenrepräsentationen bei der Initialisierung und Vorhersage und konzentrieren sich überwiegend auf Szenarien mit nur einem Objekt. Um diese Einschränkungen zu überwinden, wird in diesem Artikel ein Multi-Objekt-Mask-Box-Integriertes Rahmenwerk für eine einheitliche Verfolgung und Segmentierung vorgestellt, das als MITS bezeichnet wird. Zunächst wird ein einheitliches Identifikationsmodul vorgeschlagen, das sowohl Box- als auch Maskenreferenzen für die Initialisierung unterstützt, wobei detaillierte Objektinformationen entweder aus Boxen abgeleitet oder direkt aus Masken beibehalten werden. Zudem wird ein neuartiger präziser Box-Vorhersager eingeführt, der eine genaue Mehrobjekt-Box-Vorhersage ermöglicht und somit eine zielgerichtete Repräsentationslernung fördert. Alle Zielobjekte werden gleichzeitig von der Kodierung über die Propagation bis zur Dekodierung verarbeitet, wodurch eine einheitliche Pipeline für VOT und VOS entsteht. Experimentelle Ergebnisse zeigen, dass MITS state-of-the-art-Leistung sowohl auf VOT- als auch auf VOS-Benchmark-Datenmengen erzielt. Insbesondere übertrifft MITS den besten vorherigen VOT-Algorithmus auf dem GOT-10k-Testset um etwa 6 % und verbessert signifikant die Leistung bei der Box-Initialisierung auf VOS-Benchmarks. Der Quellcode ist unter https://github.com/yoxu515/MITS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Integration von Boxes und Masks: Ein Multi-Object-Framework für die einheitliche visuelle Verfolgung und Segmentierung | Paper | HyperAI