HyperAIHyperAI
vor 2 Monaten

Alles in Hochauflösung verfolgen

Jiawen Zhu; Zhenyu Chen; Zeqi Hao; Shijie Chang; Lu Zhang; Dong Wang; Huchuan Lu; Bin Luo; Jun-Yan He; Jin-Peng Lan; Hanyuan Chen; Chenyang Li
Alles in Hochauflösung verfolgen
Abstract

Die visuelle Objektverfolgung ist eine grundlegende Videoaufgabe im Bereich der Computer Vision. Kürzlich ermöglicht die bemerkenswerte Steigerung der Leistungsfähigkeit von Wahrnehmungsalgorithmen die Vereinheitlichung von Einzel- und Mehrfachobjektverfolgung sowie von Box- und Maskenbasierten Verfolgungsmethoden. Unter diesen Algorithmen erlangt das Segment Anything Modell (SAM) viel Aufmerksamkeit. In diesem Bericht stellen wir HQTrack vor, ein Framework zur hochwertigen Verfolgung beliebiger Objekte in Videos. HQTrack besteht hauptsächlich aus einem Video-Mehrfachobjektsegmentierer (VMOS) und einem Maskenrefiner (MR). Wenn das zu verfolgende Objekt im Anfangsbild eines Videos gegeben ist, verbreitet VMOS die Objektmasken auf das aktuelle Bild. Die Maskenergebnisse in dieser Phase sind jedoch noch nicht genau genug, da VMOS auf mehreren geschlossenen Video-Objektsegmentierung (VOS)-Datensätzen trainiert wurde, was seine Fähigkeit begrenzt, auf komplexe und Randfälle zu generalisieren. Um die Qualität der Verfolgungsmasken weiter zu verbessern, wird ein vortrainiertes MR-Modell eingesetzt, um die Verfolgungsergebnisse zu verfeinern. Als überzeugendes Zeugnis für die Effektivität unseres Paradigmas erreicht HQTrack ohne den Einsatz von Tricks wie Testzeit-Datenaugmentierungen und Modellensembles den zweiten Platz bei der Challenge zur visuellen Objektverfolgung und -segmentierung (VOTS2023). Der Quellcode und die Modelle sind unter https://github.com/jiawen-zhu/HQTrack verfügbar.

Alles in Hochauflösung verfolgen | Neueste Forschungsarbeiten | HyperAI