HyperAIHyperAI

Command Palette

Search for a command to run...

Zu einer flexibleren und genaueren Objektverfolgung mit natürlicher Sprache: Algorithmen und Benchmark

Xiao Wang Xiujun Shu Zhipeng Zhang Bo Jiang Yaowei Wang Yonghong Tian Feng Wu

Zusammenfassung

Die Verfolgung basierend auf natürlicher Sprache (Tracking by natural language specification) ist ein neu aufkommendes Forschungsfeld, das darauf abzielt, ein Zielobjekt in einer Videosequenz anhand seiner sprachlichen Beschreibung zu lokalisieren. Im Gegensatz zur herkömmlichen Bounding Box (BBox)-basierten Verfolgung nutzt dieser Ansatz hochwertige semantische Informationen, um die Objektverfolgung zu leiten, die Mehrdeutigkeit von BBox-Annotationen zu überwinden und lokale und globale Suchstrategien nahtlos miteinander zu verbinden. Diese Vorteile können zu flexiblerer, robuster und genauerer Verfolgungsleistung in praktischen Anwendungsszenarien führen. Allerdings basieren bestehende auf natürlicher Sprache initialisierte Verfolgungsmethoden auf Benchmark-Datensätzen, die ursprünglich für BBox-basierte Verfolgung entwickelt wurden, wodurch deren wahre Leistungsfähigkeit bei der Verfolgung mittels Sprache nicht adäquat erfasst werden kann. In dieser Arbeit präsentieren wir einen neuen Benchmark speziell für die Verfolgung mittels natürlicher Sprache, der ein großskaliges Datenset sowie starke und vielfältige Baseline-Methoden umfasst. Konkret sammeln wir 2.000 Videosequenzen (insgesamt 1.244.340 Frames, 663 Wörter) und teilen sie in 1.300 Sequenzen für das Training und 700 für die Testphase auf. Für jede Sequenz führen wir eine dichte Annotation einer englischen Beschreibung und der entsprechenden Bounding Boxes des Zielobjekts durch. Zudem führen wir zwei neue Herausforderungen im TNL2K-Datensatz für die Objektverfolgung ein: adversarische Beispiele und Modalschaltungen (modality switch). Wir stellen eine leistungsstarke Baseline-Methode vor, die auf einem adaptiven lokalen-globalen Suchschema basiert, um zukünftige Arbeiten als Vergleichsstandard zu dienen. Wir sind überzeugt, dass dieser Benchmark die Forschung im Bereich der natürlichsprachlich gesteuerten Objektverfolgung erheblich voranbringen wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp