Zwischen den Spuren lesen: Text-Video-Fragenbeantwortung auf der Straße

Texte und Schilder entlang von Straßen liefern für Fahrer entscheidende Informationen, die für eine sichere Navigation und situative Wahrnehmung unerlässlich sind. Die Erkennung von Szenentexten in Bewegung stellt eine herausfordernde Aufgabe dar, da textuelle Hinweise typischerweise nur für einen kurzen Zeitraum sichtbar sind und eine frühzeitige Erkennung aus der Ferne notwendig ist. Systeme, die solche Informationen nutzen, um den Fahrer zu unterstützen, müssen nicht nur visuelle und textuelle Hinweise aus dem Video-Stream extrahieren und integrieren, sondern auch über die Zeit hinweg schlussfolgern können. Um dieses Problem anzugehen, stellen wir RoadTextVQA vor – einen neuen Datensatz für die Aufgabe des Video-Fragenbeantwortens (VideoQA) im Kontext von Fahrerassistenzsystemen. RoadTextVQA besteht aus 3.222 Fahrvideos, die aus mehreren Ländern stammen, und enthält 10.500 annotierte Fragen, die alle auf Texten oder Verkehrszeichen basieren, die in den Videos erscheinen. Wir bewerten die Leistung aktueller State-of-the-Art-Modelle für Video-Fragenbeantwortung auf unserem RoadTextVQA-Datensatz und weisen dabei das erhebliche Verbesserungspotenzial in diesem Bereich sowie die Nützlichkeit des Datensatzes für die Weiterentwicklung von Fahrzeug-internen Unterstützungssystemen und textbewussten multimodalen Fragenbeantwortungssystemen nach. Der Datensatz ist unter http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa verfügbar.