HyperAIHyperAI
vor 2 Monaten

Noise Contrastive Estimation und Negative Sampling für bedingte Modelle: Konsistenz und statistische Effizienz

Zhuang Ma; Michael Collins
Noise Contrastive Estimation und Negative Sampling für bedingte Modelle: Konsistenz und statistische Effizienz
Abstract

Noise Contrastive Estimation (NCE) ist eine leistungsstarke Parameterschätzmethode für log-lineare Modelle, die die Berechnung der Partitionsfunktion oder ihrer Ableitungen bei jedem Trainingschritt vermeidet, ein rechenaufwendiger Schritt in vielen Fällen. Sie ist eng verwandt mit negativen Sampling-Methoden, die heute im Bereich der Natürlichen Sprachverarbeitung (NLP) weit verbreitet sind. Dieses Papier behandelt die NCE-basierte Schätzung von bedingten Modellen. Bedingte Modelle treten in der Praxis häufig auf; es gibt jedoch bisher keine gründliche theoretische Analyse von NCE in diesem Kontext, und wir werden argumentieren, dass es subtile aber wichtige Fragen gibt, wenn man NCE auf den bedingten Fall verallgemeinert. Insbesondere analysieren wir zwei Varianten von NCE für bedingte Modelle: eine basiert auf einem Klassifikationsziel, die andere auf einem Rangfolgeziel. Wir zeigen, dass die Rangfolge-basierte Variante von NCE unter schwächeren Annahmen konsistente Parameterschätzungen liefert als die Klassifikations-basierte Methode; wir untersuchen die statistische Effizienz der Rangfolge-basierten und Klassifikations-basierten Varianten von NCE; schließlich beschreiben wir Experimente mit synthetischen Daten und Sprachmodellierung, die die Effektivität und Handlungsspielräume beider Methoden verdeutlichen.