HyperAIHyperAI
vor 9 Tagen

SUTD-TrafficQA: Ein Frage-Antwort-Prüfstein und ein effizienter Netzwerkansatz für Video-Reasoning bei Verkehrsereignissen

Li Xu, He Huang, Jun Liu
SUTD-TrafficQA: Ein Frage-Antwort-Prüfstein und ein effizienter Netzwerkansatz für Video-Reasoning bei Verkehrsereignissen
Abstract

Die Erkennung und Schlussfolgerung von Verkehrsevents in Videos ist eine zentrale Aufgabe mit vielfältigen Anwendungen in intelligenten Verkehrssystemen, assistiertem Fahren und autonomen Fahrzeugen. In diesem Paper präsentieren wir ein neuartiges Datenset, SUTD-TrafficQA (Traffic Question Answering), das auf 10.080 in-the-wild-Videos basiert und 62.535 annotierte QA-Paare enthält, um die kognitiven Fähigkeiten von Modellen zur kausalen Inferenz und Ereignisverstehens in komplexen Verkehrsszenarien zu benchmarken. Insbesondere schlagen wir sechs herausfordernde Schlussfolgerungsaufgaben vor, die verschiedenen Verkehrsszenarien entsprechen, um die Schlussfolgerungskapazität gegenüber unterschiedlichen, jedoch praktisch relevanten komplexen Verkehrsevents zu evaluieren. Darüber hinaus stellen wir Eclipse vor, ein neuartiges effizientes Glimpse-Netzwerk mittels dynamischer Inferenz, das eine rechnerisch effiziente und zuverlässige Video-Schlussfolgerung ermöglicht. Experimente zeigen, dass unsere Methode eine herausragende Leistung erzielt, während gleichzeitig die Rechenkosten signifikant reduziert werden. Projektseite: https://github.com/SUTDCV/SUTD-TrafficQA.