HyperAIHyperAI

Command Palette

Search for a command to run...

RN-VID : Une architecture de fusion de caractéristiques pour la détection d'objets dans les vidéos

Hughes Perreault Maguelonne Héritier Pierre Gravel Guillaume-Alexandre Bilodeau Nicolas Saunier

Résumé

Les trames consécutives d'une vidéo sont fortement redondantes. Par conséquent, appliquer des détecteurs de trames individuelles à chaque trame sans réutiliser aucune information est une approche très coûteuse. C’est dans cette optique que nous proposons RN-VID (abréviation de RetinaNet-VIDeo), une nouvelle approche pour la détection d’objets dans les vidéos. Nos contributions sont de deux ordres. Premièrement, nous proposons une nouvelle architecture permettant d’exploiter l’information provenant des trames voisines afin d’améliorer les cartes de caractéristiques. Deuxièmement, nous introduisons un nouveau module permettant de fusionner des cartes de caractéristiques de même dimension par réorganisation des canaux et l’application de convolutions 1×1. Nous démontrons ensuite que RN-VID atteint un meilleur score de précision moyenne (mAP) par rapport aux détecteurs de trames individuelles, avec un coût supplémentaire négligeable lors de l’inférence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp