HyperAIHyperAI
il y a 2 mois

Estimation par contraste de bruit et échantillonnage négatif pour les modèles conditionnels : cohérence et efficacité statistique

Zhuang Ma; Michael Collins
Estimation par contraste de bruit et échantillonnage négatif pour les modèles conditionnels : cohérence et efficacité statistique
Résumé

L'estimation par contraste de bruit (Noise Contrastive Estimation, NCE) est une méthode puissante d'estimation des paramètres pour les modèles log-linéaires, qui évite le calcul de la fonction de partition ou de ses dérivées à chaque étape d'entraînement, une étape souvent coûteuse en termes de calcul. Elle est étroitement liée aux méthodes d'échantillonnage négatif, largement utilisées aujourd'hui en traitement du langage naturel (NLP). Cet article examine l'estimation basée sur NCE des modèles conditionnels. Les modèles conditionnels sont fréquemment rencontrés dans la pratique ; cependant, il n'y a pas eu jusqu'à présent d'analyse théorique rigoureuse de NCE dans ce contexte, et nous soutiendrons qu'il existe des questions subtiles mais importantes lors de la généralisation de NCE au cas conditionnel. En particulier, nous analysons deux variantes de NCE pour les modèles conditionnels : l'une basée sur un objectif de classification, l'autre basée sur un objectif de classement. Nous montrons que la variante de NCE basée sur le classement fournit des estimations cohérentes des paramètres sous des hypothèses plus faibles que la méthode basée sur la classification ; nous analysons l'efficacité statistique des variantes de NCE basées sur le classement et sur la classification ; enfin, nous décrivons des expériences menées sur des données synthétiques et sur la modélisation linguistique mettant en évidence l'efficacité et les compromis de ces deux méthodes.