LIGAR: Lightweight General-purpose Action Recognition

Die zunehmende Vielzahl unterschiedlicher praktischer Aufgaben im Bereich der Videoverstehens stellt eine große Herausforderung dar, die darauf abzielt, eine universelle Lösung zu entwickeln, die für breite Nutzergruppen zugänglich ist und gleichzeitig den Anforderungen einer edge-orientierten Inferenz gerecht wird. In diesem Paper konzentrieren wir uns auf die Entwicklung einer Netzwerkarchitektur und eines Trainingspipelines, um diese Herausforderungen zu meistern. Unsere Architektur kombiniert die besten Eigenschaften früherer Ansätze und verfügt über die Fähigkeit, sowohl in auf Erscheinung basierenden Aktionserkennungsaufgaben als auch in bewegungsorientierten Problemen erfolgreich zu sein. Zudem wird das durch die Datenbeschriftung verursachte Rauschen systematisch analysiert, und wir stellen den Adaptive Clip Selection (ACS)-Ansatz vor, um dieses Problem zu bewältigen. In Kombination bilden diese Komponenten den LIGAR-Framework, der somit eine allgemein anwendbare Lösung für Aktionserkennung darstellt. Wir präsentieren außerdem eine umfassende Analyse an allgemeinen und Gesten-Datensätzen, die ein hervorragendes Verhältnis zwischen Leistungsfähigkeit und Genauigkeit im Vergleich zu aktuellen State-of-the-Art-Lösungen aufzeigt. Der Trainingscode ist unter folgender URL verfügbar: https://github.com/openvinotoolkit/training_extensions. Für eine effiziente, edge-orientierte Inferenz können alle trainierten Modelle in das OpenVINO-Format exportiert werden.