HyperAIHyperAI
vor 2 Monaten

Schnell und Langsam Betrachtet: Erkennung von Bewegten Videoobjekten unter Anleitung des Gedächtnisses

Mason Liu; Menglong Zhu; Marie White; Yinxiao Li; Dmitry Kalenichenko
Schnell und Langsam Betrachtet: Erkennung von Bewegten Videoobjekten unter Anleitung des Gedächtnisses
Abstract

Mit einer einzelnen Fixation, die nur Bruchteile von Sekunden dauert, ist das menschliche visuelle System in der Lage, eine reichhaltige Darstellung einer komplexen Umgebung zu bilden und ein ganzheitliches Verständnis zu erreichen, das die Objekterkennung und -detektion erleichtert. Dieses Phänomen wird als die Erkennung des "Gists" (Kernpunkte) der Szene bezeichnet und wird durch den Einsatz relevanter vorheriger Kenntnisse ermöglicht. Diese Arbeit stellt die analoge Frage, ob der Einsatz von Speicher in Computer-Vision-Systemen nicht nur die Genauigkeit der Objektdetektion in Videostreams verbessern kann, sondern auch die Rechenzeit reduzieren kann. Durch das Alternieren konventioneller Merkmalsextraktoren mit extrem leichten Extrakten, die nur das Gist der Szene erkennen müssen, zeigen wir, dass bei Vorhandensein eines zeitlichen Speichers minimale Berechnungen ausreichen, um genaue Detektionen zu erzeugen. Zudem zeigen wir, dass der Speicher genügend Informationen enthält, um Reinforcement-Learning-Algorithmen zum Lernen einer adaptiven Inferenzpolitik einzusetzen. Unser Modell erreicht den Stand der Technik unter mobilen Methoden im Imagenet VID 2015-Datensatz und läuft auf einem Pixel 3-Smartphone mit Geschwindigkeiten von bis zu 70+ FPS.