Apprentissage collaboratif imbriqué pour la reconnaissance visuelle à longue queue

Les réseaux entraînés sur un ensemble de données à distribution longue-taillée varient considérablement, même sous des conditions d'entraînement identiques, ce qui met en évidence une grande incertitude inhérente à l'apprentissage en présence de distributions déséquilibrées. Pour atténuer cette incertitude, nous proposons une méthode appelée Nested Collaborative Learning (NCL), qui aborde le problème en apprenant de manière collaborative plusieurs experts. NCL se compose de deux composants principaux : Nested Individual Learning (NIL), qui se concentre sur l'apprentissage supervisé individuel de chaque expert, et Nested Balanced Online Distillation (NBOD), qui gère le transfert de connaissances entre plusieurs experts. Afin d'apprendre des représentations de manière plus approfondie, les deux composants NIL et NBOD sont formulés de manière imbriquée (nested), où l'apprentissage s'effectue non seulement sur toutes les catégories de manière globale, mais aussi sur certaines catégories difficiles de manière partielle. Concernant l'apprentissage depuis une perspective partielle, nous sélectionnons spécifiquement les catégories négatives présentant des scores prédits élevés comme catégories difficiles, grâce à une méthode proposée appelée Hard Category Mining (HCM). Dans NCL, l'apprentissage issu des deux perspectives est imbriqué, fortement corrélé et complémentaire, et permet au réseau de capturer à la fois des caractéristiques globales et robustes, ainsi qu'une capacité fine de discrimination. En outre, une auto-supervision est exploitée pour renforcer les représentations apprises. Des expérimentations étendues démontrent l'efficacité de notre méthode, qui surpasser les états de l'art, que ce soit avec un modèle unique ou une ensemence.