HyperAIHyperAI
il y a 2 mois

Recherche rapide et lente : détection d'objets vidéo mobile guidée par la mémoire

Mason Liu; Menglong Zhu; Marie White; Yinxiao Li; Dmitry Kalenichenko
Recherche rapide et lente : détection d'objets vidéo mobile guidée par la mémoire
Résumé

Avec une fixation oculaire d'une fraction de seconde, le système visuel humain est capable de former une représentation riche d'un environnement complexe, atteignant une compréhension holistique qui facilite la reconnaissance et la détection des objets. Ce phénomène est connu sous le nom de reconnaissance du « gist » (essence) de la scène et est réalisé en s'appuyant sur des connaissances antérieures pertinentes. Cet article aborde la question analogue de savoir si l'utilisation de la mémoire dans les systèmes de vision par ordinateur peut non seulement améliorer la précision de la détection d'objets dans les flux vidéo, mais aussi réduire le temps de calcul. En alternant des extracteurs de caractéristiques conventionnels avec des extracteurs extrêmement légers qui n'ont besoin que de reconnaître l'essence de la scène, nous montrons qu'un calcul minimal est nécessaire pour produire des détections précises lorsque la mémoire temporelle est présente. De plus, nous démontrons que la mémoire contient suffisamment d'informations pour permettre le déploiement d'algorithmes d'apprentissage par renforcement afin d'apprendre une politique d'inférence adaptative. Notre modèle atteint des performances au niveau de l'état de l'art parmi les méthodes mobiles sur le jeu de données Imagenet VID 2015, tout en fonctionnant à des vitesses allant jusqu'à 70+ images par seconde sur un téléphone Pixel 3.

Recherche rapide et lente : détection d'objets vidéo mobile guidée par la mémoire | Articles de recherche récents | HyperAI