vor 11 Tagen

Zu einer flexibleren und genaueren Objektverfolgung mit natürlicher Sprache: Algorithmen und Benchmark

Xiao Wang, Xiujun Shu, Zhipeng Zhang, Bo Jiang, Yaowei Wang, Yonghong Tian, Feng Wu

Abstract

Die Verfolgung basierend auf natürlicher Sprache (Tracking by natural language specification) ist ein neu aufkommendes Forschungsfeld, das darauf abzielt, ein Zielobjekt in einer Videosequenz anhand seiner sprachlichen Beschreibung zu lokalisieren. Im Gegensatz zur herkömmlichen Bounding Box (BBox)-basierten Verfolgung nutzt dieser Ansatz hochwertige semantische Informationen, um die Objektverfolgung zu leiten, die Mehrdeutigkeit von BBox-Annotationen zu überwinden und lokale und globale Suchstrategien nahtlos miteinander zu verbinden. Diese Vorteile können zu flexiblerer, robuster und genauerer Verfolgungsleistung in praktischen Anwendungsszenarien führen. Allerdings basieren bestehende auf natürlicher Sprache initialisierte Verfolgungsmethoden auf Benchmark-Datensätzen, die ursprünglich für BBox-basierte Verfolgung entwickelt wurden, wodurch deren wahre Leistungsfähigkeit bei der Verfolgung mittels Sprache nicht adäquat erfasst werden kann. In dieser Arbeit präsentieren wir einen neuen Benchmark speziell für die Verfolgung mittels natürlicher Sprache, der ein großskaliges Datenset sowie starke und vielfältige Baseline-Methoden umfasst. Konkret sammeln wir 2.000 Videosequenzen (insgesamt 1.244.340 Frames, 663 Wörter) und teilen sie in 1.300 Sequenzen für das Training und 700 für die Testphase auf. Für jede Sequenz führen wir eine dichte Annotation einer englischen Beschreibung und der entsprechenden Bounding Boxes des Zielobjekts durch. Zudem führen wir zwei neue Herausforderungen im TNL2K-Datensatz für die Objektverfolgung ein: adversarische Beispiele und Modalschaltungen (modality switch). Wir stellen eine leistungsstarke Baseline-Methode vor, die auf einem adaptiven lokalen-globalen Suchschema basiert, um zukünftige Arbeiten als Vergleichsstandard zu dienen. Wir sind überzeugt, dass dieser Benchmark die Forschung im Bereich der natürlichsprachlich gesteuerten Objektverfolgung erheblich voranbringen wird.