HyperAIHyperAI
il y a 17 jours

Du chaos vient l’ordre : ordonnancement des représentations d’événements pour la reconnaissance et la détection d’objets

Nikola Zubić, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza
Du chaos vient l’ordre : ordonnancement des représentations d’événements pour la reconnaissance et la détection d’objets
Résumé

Aujourd'hui, les réseaux neuronaux profonds de pointe qui traitent les événements convertissent d'abord ceux-ci en représentations d'entrée denses et de type grille avant d'appliquer un réseau préétabli. Toutefois, le choix de la représentation adaptée au tâche nécessite traditionnellement d'entraîner un réseau neuronal pour chaque représentation, puis de sélectionner celle qui obtient le meilleur score sur un ensemble de validation — une procédure extrêmement coûteuse en temps. Ce travail élimine cette goulée d'étranglement en sélectionnant les représentations à l'aide du désaccord de Gromov-Wasserstein (GWD) entre les événements bruts et leurs représentations. Ce calcul est environ 200 fois plus rapide que l'entraînement d'un réseau neuronal, tout en préservant fidèlement le classement des performances des représentations sur diverses représentations, architectures de réseau, jeux de données et tâches. Ainsi, trouver des représentations offrant de hauts scores sur la tâche revient à identifier celles présentant un faible GWD. Grâce à cette observation, nous réalisons, pour la première fois, une recherche de hyperparamètres sur une large famille de représentations d'événements, découvrant ainsi de nouvelles représentations puissantes qui surpassent l'état de l'art. Nos représentations optimisées surpassent les représentations existantes de 1,7 mAP sur le jeu de données 1 Mpx et de 0,3 mAP sur le jeu de données Gen1, deux benchmarks établis pour la détection d'objets, et atteignent un score de classification supérieur de 3,8 % sur le benchmark mini N-ImageNet. En outre, nous surpassons l'état de l'art de 2,1 mAP sur Gen1 et les méthodes à propagation avant de 6,0 mAP sur le jeu de données 1 Mpx. Ce travail ouvre un nouveau domaine inexploré : l'optimisation explicite des représentations pour l'apprentissage basé sur les événements.