HyperAIHyperAI
vor 17 Tagen

Video Sparse Transformer mit attentionsgesteuertem Memory für die Video-Objekterkennung

{Akihiro Sugimoto, Masato Fujitake}
Abstract

Die Erkennung von Objekten in Videos, auch bekannt als Video Object Detection (VOD), ist herausfordernd, da sich die Erscheinung von Objekten im Laufe der Zeit verändern kann und somit Detektionsfehler verursachen kann. In jüngster Forschung wurde der Fokus auf die Aggregation von Merkmalen aus benachbarten Frames gelegt, um die verschlechterten Erscheinungen eines einzelnen Frames auszugleichen. Darüber hinaus wurde vorgeschlagen, auch entfernte Frames zu nutzen, um mit verschlechterten Erscheinungen über mehrere Frames umzugehen. Da sich die Position eines Objekts in einem entfernten Frame erheblich verändern kann, werden lediglich Merkmale von Objekt-Kandidatregionen verwendet, die unabhängig von ihrer Position sind. Diese Ansätze beruhen jedoch stark auf der Detektionsleistung der Objekt-Kandidatregionen und sind für stark verschlechterte Erscheinungen nicht praktikabel. In diesem Artikel präsentieren wir eine Verbesserung der Merkmale elementweise vor der Detektion von Objekt-Kandidatregionen durch die Einführung des Video Sparse Transformer with Attention-guided Memory (VSTAM). Zudem schlagen wir eine sparsame Aggregation von elementweisen Merkmalen vor, um die Verarbeitungszeit und den Speicherverbrauch zu reduzieren. Zusätzlich führen wir eine externe Speicheraktualisierungsstrategie ein, die auf der Ausnutzung der Aggregation basiert und es ermöglicht, langfristige Informationen effektiv zu speichern. Unser Ansatz erzielt auf den Datensätzen ImageNet VID und UA-DETRAC eine Genauigkeitssteigerung von 8,3 % und 11,1 % gegenüber der Basislinie. Unser Verfahren zeigt eine überlegene Leistung im Vergleich zu aktuellen state-of-the-art-Resultaten auf weit verbreiteten VOD-Datensätzen.