Perte équilibrée par distribution pour la classification multi-étiquettes dans les jeux de données à queue longue

Nous présentons une nouvelle fonction de perte, appelée Distribution-Balanced Loss, destinée aux problèmes de reconnaissance multi-étiquettes présentant des distributions de classes à queue longue. Contrairement au problème classique de classification à une seule étiquette, les problèmes de reconnaissance multi-étiquettes sont souvent plus complexes en raison de deux enjeux majeurs : la co-occurrence des étiquettes et la dominance des étiquettes négatives (lorsqu’ils sont traités comme des problèmes de classification binaire multiples). La Distribution-Balanced Loss aborde ces difficultés grâce à deux modifications clés apportées à la perte standard d’entropie croisée binaire : 1) une nouvelle méthode de rééquilibrage des poids qui prend en compte l’impact de la co-occurrence des étiquettes, et 2) une régularisation tolérante aux étiquettes négatives visant à atténuer la sur-suppression de ces dernières. Des expériences menées sur les jeux de données Pascal VOC et COCO montrent que les modèles entraînés avec cette nouvelle fonction de perte obtiennent des performances significativement supérieures à celles des méthodes existantes. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/wutong16/DistributionBalancedLoss.