Classification à queue longue par conservation de l'effet causal de momentum bon et élimination de l'effet causal de momentum mauvais

À mesure que la taille de la classe augmente, il est difficile de maintenir un ensemble de données équilibré sur un grand nombre de classes, car les données présentent naturellement une distribution en queue longue ; cela devient même impossible lorsque les échantillons d'intérêt coexistent au sein d'une même unité collectable, par exemple plusieurs instances visuelles dans une même image. Par conséquent, la classification en queue longue constitue un enjeu central pour l’apprentissage profond à grande échelle. Toutefois, les méthodes existantes reposent principalement sur des heuristiques de répondération ou de rééchantillonnage, qui manquent d’une base théorique solide. Dans cet article, nous établissons un cadre d’inférence causale qui non seulement éclaire les raisons sous-jacentes des méthodes antérieures, mais conduit également à une nouvelle solution fondée sur des principes rigoureux. Plus précisément, notre théorie montre que le moment de la descente de gradient stochastique (SGD) constitue essentiellement un biais de confusion (confounder) dans la classification en queue longue. D’un côté, il exerce un effet causal néfaste qui détourne prédiction des classes rares vers les classes dominantes. De l’autre, la médiation qu’il induit contribue également positivement à l’apprentissage des représentations et à la prédiction des classes dominantes. Notre cadre dénoue élégamment les effets contradictoires du moment en se concentrant sur l’effet causal direct provoqué par un échantillon d’entrée. En particulier, nous utilisons une intervention causale pendant l’entraînement et une raisonnement contre-factuel pendant l’inférence afin d’éliminer les effets « négatifs » tout en préservant les effets « positifs ». Nous atteignons de nouveaux états de l’art sur trois benchmarks de reconnaissance visuelle en queue longue : Long-tailed CIFAR-10/-100, ImageNet-LT pour la classification d’images et LVIS pour la segmentation d’instances.