Une vue unificatrice basée sur l'information mutuelle pour l'apprentissage de métriques : entropie croisée versus pertes par paires

Récemment, de nombreux efforts de recherche en apprentissage métrique profond (Deep Metric Learning, DML) se sont concentrés sur la conception de pertes complexes basées sur les distances entre paires, nécessitant des mécanismes élaborés pour faciliter l’optimisation, tels que l’extraction de paires (sample mining) ou le pondération des paires. La perte d’entropie croisée standard utilisée pour la classification a été largement ignorée dans le cadre du DML. À première vue, l’entropie croisée pourrait sembler étrangère et sans rapport avec l’apprentissage métrique, puisqu’elle ne fait pas explicitement intervenir de distances entre paires. Toutefois, nous fournissons une analyse théorique qui établit un lien entre l’entropie croisée et plusieurs pertes par paires bien connues ainsi que récentes. Nos liens sont établis à partir de deux perspectives distinctes : une première fondée sur un aperçu explicite d’optimisation ; une seconde basée sur les interprétations discriminatives et génératives de l’information mutuelle entre les étiquettes et les caractéristiques apprises. Premièrement, nous démontrons explicitement que l’entropie croisée constitue une borne supérieure sur une nouvelle perte par paires, dont la structure ressemble à celle de diverses pertes par paires : elle minimise les distances intra-classe tout en maximisant les distances inter-classe. En conséquence, la minimisation de l’entropie croisée peut être vue comme une méthode d’optimisation par borne (ou algorithme Majorize-Minimize) approximative pour minimiser cette perte par paires. Deuxièmement, nous montrons, de manière plus générale, que la minimisation de l’entropie croisée est en réalité équivalente à la maximisation de l’information mutuelle, à laquelle nous rattachons plusieurs pertes par paires classiques. En outre, nous démontrons que diverses pertes par paires standard peuvent être explicitement reliées entre elles par des relations de borne. Nos résultats indiquent que l’entropie croisée constitue un substitut efficace pour maximiser l’information mutuelle — comme le font les pertes par paires — sans recourir à des heuristiques complexes telles que l’extraction de paires. Nos expérimentations sur quatre benchmarks standards de DML soutiennent fortement nos conclusions. Nous obtenons des résultats de pointe, surpassant les méthodes récentes et complexes de DML.