il y a 11 jours

Prévenir les pièges locaux dans la quantification vectorielle par transport optimal

Borui Zhang, Wenzhao Zheng, Jie Zhou, Jiwen Lu

Résumé

Les réseaux à quantification vectorielle (VQNs) ont fait preuve d’une performance remarquable sur diverses tâches, mais ils sont sujets à une instabilité d’entraînement, ce qui complique le processus d’apprentissage en nécessitant des techniques telles qu’une initialisation subtile ou une distillation de modèle. Dans cette étude, nous identifions le problème des minima locaux comme la principale cause de cette instabilité. Pour y remédier, nous intégrons une méthode de transport optimal à la place de la recherche du plus proche voisin, afin d’obtenir une affectation plus globalement informée. Nous proposons OptVQ, une nouvelle méthode de quantification vectorielle qui utilise l’algorithme de Sinkhorn pour résoudre le problème de transport optimal, améliorant ainsi la stabilité et l’efficacité du processus d’entraînement. Pour atténuer l’influence des distributions de données diverses sur l’algorithme de Sinkhorn, nous mettons en œuvre une stratégie de normalisation simple mais efficace. Nos expériences approfondies sur des tâches de reconstruction d’images montrent que OptVQ atteint une utilisation à 100 % du codebook et surpasser les VQNs actuels de l’état de l’art en termes de qualité de reconstruction.