HyperAIHyperAI
il y a 3 mois

MoCaE : Mélange d'Experts Calibrés Améliore Significativement la Détection d'Objets

Kemal Oksuz, Selim Kuzucu, Tom Joy, Puneet K. Dokania
MoCaE : Mélange d'Experts Calibrés Améliore Significativement la Détection d'Objets
Résumé

Combiner les forces de nombreux détecteurs d’experts existants afin d’obtenir un Mélange d’Experts (Mixture of Experts) dont les performances dépassent celles de ses composants individuels constitue une approche efficace pour améliorer les résultats sans avoir à concevoir de nouvelles architectures ou à entraîner un modèle depuis le début. Toutefois, de manière surprenante, nous constatons que combiner naïvement les détecteurs d’experts de manière similaire aux Deep Ensembles peut souvent entraîner une dégradation des performances. Nous identifions que la cause principale de ce phénomène réside dans le fait que les prédictions des experts ne correspondent pas à leur véritable performance, un phénomène désigné sous le nom de déséquilibre de calibration (miscalibration). En conséquence, le détecteur le plus confiant domine les prédictions finales, empêchant ainsi le mélange d’exploiter de manière adéquate les prédictions de tous les experts. Pour remédier à cela, nous proposons, lors de la construction du Mélange d’Experts, de combiner les prédictions de manière à refléter précisément les performances individuelles de chaque expert. Cet objectif est atteint en préalablement calibrant les prédictions, puis en les filtrant et en les affinant. Nous appelons cette approche le Mélange d’Experts Calibrés (Mixture of Calibrated Experts). Nous démontrons son efficacité à travers des expérimentations approfondies sur cinq tâches différentes de détection, utilisant une variété de détecteurs, montrant ainsi que : (i) elle améliore les détecteurs d’objets sur COCO et les méthodes de segmentation d’instances sur LVIS de jusqu’à $\sim 2,5$ AP ; (ii) atteint l’état de l’art sur COCO test-dev avec un score de $65,1$ AP et sur DOTA avec $82,62$ $\mathrm{AP_{50}}$ ; (iii) surpasse de manière cohérente les modèles uniques sur des tâches récentes de détection, telles que la Détection d’Objets à Vocabulaire Ouvert.