Command Palette
Search for a command to run...
Integration von Boxes und Masks: Ein Multi-Object-Framework für die einheitliche visuelle Verfolgung und Segmentierung
Integration von Boxes und Masks: Ein Multi-Object-Framework für die einheitliche visuelle Verfolgung und Segmentierung
Yuanyou Xu Zongxin Yang Yi Yang
Zusammenfassung
Die räumlich-zeitliche Verfolgung eines oder mehrerer Objekte ist ein zentrales Ziel in der visuellen Objektverfolgung (Visual Object Tracking, VOT) und der Video-Objektsegmentierung (Video Object Segmentation, VOS). In einigen Studien wurden Verfolgung und Segmentierung gemeinsam betrachtet, doch zeigen diese häufig eine unvollständige Kompatibilität zwischen Box- und Maskenrepräsentationen bei der Initialisierung und Vorhersage und konzentrieren sich überwiegend auf Szenarien mit nur einem Objekt. Um diese Einschränkungen zu überwinden, wird in diesem Artikel ein Multi-Objekt-Mask-Box-Integriertes Rahmenwerk für eine einheitliche Verfolgung und Segmentierung vorgestellt, das als MITS bezeichnet wird. Zunächst wird ein einheitliches Identifikationsmodul vorgeschlagen, das sowohl Box- als auch Maskenreferenzen für die Initialisierung unterstützt, wobei detaillierte Objektinformationen entweder aus Boxen abgeleitet oder direkt aus Masken beibehalten werden. Zudem wird ein neuartiger präziser Box-Vorhersager eingeführt, der eine genaue Mehrobjekt-Box-Vorhersage ermöglicht und somit eine zielgerichtete Repräsentationslernung fördert. Alle Zielobjekte werden gleichzeitig von der Kodierung über die Propagation bis zur Dekodierung verarbeitet, wodurch eine einheitliche Pipeline für VOT und VOS entsteht. Experimentelle Ergebnisse zeigen, dass MITS state-of-the-art-Leistung sowohl auf VOT- als auch auf VOS-Benchmark-Datenmengen erzielt. Insbesondere übertrifft MITS den besten vorherigen VOT-Algorithmus auf dem GOT-10k-Testset um etwa 6 % und verbessert signifikant die Leistung bei der Box-Initialisierung auf VOS-Benchmarks. Der Quellcode ist unter https://github.com/yoxu515/MITS verfügbar.