il y a 3 mois

YOLOv9 : Apprendre ce que vous souhaitez apprendre en utilisant des informations de gradient programmables

Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao

Résumé

Les méthodes actuelles d'apprentissage profond se concentrent sur la conception de fonctions objectifs les plus adaptées afin que les résultats de prédiction du modèle se rapprochent au maximum de la vérité terrain. Parallèlement, une architecture appropriée doit être conçue pour faciliter l'acquisition d'informations suffisantes nécessaires à la prédiction. Les méthodes existantes ignorent toutefois un fait crucial : lorsqu’un jeu de données d’entrée subit une extraction de caractéristiques et une transformation spatiale couche par couche, une quantité importante d’information est perdue. Ce papier s’attaque aux questions fondamentales liées à la perte d’information lors du passage des données à travers les réseaux profonds, à savoir le goulot d’étranglement d’information (information bottleneck) et les fonctions réversibles. Nous proposons le concept de gradient d’information programmable (PGI), afin de répondre aux diverses exigences des réseaux profonds dans le but d’atteindre plusieurs objectifs. Le PGI permet de fournir une information d’entrée complète pour la tâche cible, afin de calculer la fonction objectif, garantissant ainsi des informations de gradient fiables pour la mise à jour des poids du réseau. En outre, nous avons conçu une nouvelle architecture légère de réseau : le Réseau d’agrégation de couches généralisé efficace (GELAN), basé sur une planification du chemin du gradient. L’architecture GELAN confirme que le PGI obtient des résultats supérieurs sur les modèles légers. Nous avons validé le GELAN et le PGI sur le jeu de données MS COCO pour la détection d’objets. Les résultats montrent que le GELAN, en utilisant uniquement des opérateurs de convolution conventionnels, réalise une meilleure utilisation des paramètres par rapport aux méthodes de pointe basées sur la convolution séparable. Le PGI est applicable à une large gamme de modèles, allant des modèles légers aux modèles volumineux. Il permet d’obtenir une information complète, permettant ainsi aux modèles entraînés à partir de zéro de surpasser les modèles de pointe pré-entraînés sur de grands jeux de données ; les résultats comparatifs sont illustrés à la Figure 1. Le code source est disponible à l’adresse suivante : https://github.com/WongKinYiu/yolov9.