Alignement de Distribution : Un Cadre Unifié pour la Reconnaissance Visuelle en Queue de Longue

Malgré les récents succès des réseaux neuronaux profonds, il reste difficile de modéliser efficacement la distribution à queue longue dans les tâches de reconnaissance visuelle. Pour relever ce défi, nous menons d'abord une étude ablation afin d'identifier le goulot d'étranglement des performances du cadre d'apprentissage en deux étapes. Inspirés par nos observations, nous proposons une stratégie unifiée d’alignement de distribution pour la reconnaissance visuelle à queue longue. Plus précisément, nous développons une fonction d’étalonnage adaptative permettant d’ajuster les scores de classification pour chaque point de données. Nous introduisons ensuite une méthode généralisée de ré-pondération dans le cadre en deux étapes afin d’équilibrer les priorités de classe, offrant ainsi une solution flexible et unifiée pour divers scénarios dans les tâches de reconnaissance visuelle. Nous validons notre méthode à travers des expériences étendues sur quatre tâches : classification d’images, segmentation sémantique, détection d’objets et segmentation d’instances. Notre approche atteint des résultats de pointe sur les quatre tâches de reconnaissance, avec un cadre simple et unifié. Le code source et les modèles seront rendus disponibles publiquement à l’adresse suivante : https://github.com/Megvii-BaseDetection/DisAlign