HyperAIHyperAI
il y a 2 mois

Cadres d'apprentissage et de distillation multi-tâches progressifs pour la reconnaissance détaillée des véhicules

Liu, Dichao
Cadres d'apprentissage et de distillation multi-tâches progressifs pour la reconnaissance détaillée des véhicules
Résumé

La reconnaissance fine-grainée de véhicules (FGVR) est une technologie fondamentale essentielle pour les systèmes de transport intelligent, mais elle est très difficile en raison de sa variation intra-classe inhérente. La plupart des études précédentes sur la FGVR ne se concentrent que sur la variation intra-classe causée par différents angles et positions de prise de vue, tandis que la variation intra-classe due au bruit d'image n'a reçu que peu d'attention. Cet article propose un cadre d'apprentissage anti-bruit multi-tâches progressif (PMAL) et un cadre de distillation multi-tâches progressive (PMD) pour résoudre le problème de variation intra-classe dans la FGVR dû au bruit d'image. Le cadre PMAL atteint une précision élevée de reconnaissance en traitant le débruitage d'image comme une tâche supplémentaire dans la reconnaissance d'image et en forçant progressivement un modèle à apprendre l'invariance au bruit. Le cadre PMD transfère les connaissances du modèle formé avec PMAL dans le réseau neuronal principal original, produisant ainsi un modèle avec une précision de reconnaissance comparable à celle du modèle formé avec PMAL, sans aucun coût supplémentaire par rapport au réseau neuronal principal original. En combinant ces deux cadres, nous obtenons des modèles qui surpassent significativement les méthodes précédentes de pointe en termes de précision de reconnaissance sur deux jeux de données standard largement utilisés pour la FGVR, à savoir Stanford Cars et CompCars, ainsi que sur trois jeux de données supplémentaires basés sur des images de surveillance pour la classification des types de véhicules, à savoir Beijing Institute of Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), et Vehicle Images Dataset for Make Model Recognition (VIDMMR), sans aucun coût supplémentaire par rapport aux réseaux neuronaux principaux originaux. Le code source est disponible à l'adresse suivante : https://github.com/Dichao-Liu/Anti-noise_FGVR