il y a 2 mois

Une relaxation continue de la recherche en faisceau pour l'entraînement de bout en bout des modèles de séquence neuronaux

Kartik Goyal; Graham Neubig; Chris Dyer; Taylor Berg-Kirkpatrick

Résumé

La recherche en faisceau (beam search) est une méthode de décodage souhaitable pour les modèles de séquences neuronaux car elle évite potentiellement les erreurs de recherche commises par des méthodes plus simples et gourmandes. Cependant, les procédures d'entraînement habituelles par entropie croisée pour ces modèles ne prennent pas directement en compte le comportement de la méthode de décodage finale. Par conséquent, pour les modèles entraînés par entropie croisée, le décodage en faisceau peut parfois entraîner une performance réduite lors des tests comparativement au décodage gourmand. Afin d'entraîner des modèles qui peuvent utiliser plus efficacement la recherche en faisceau, nous proposons une nouvelle procédure d'entraînement qui se concentre sur la métrique de perte finale (par exemple, la perte de Hamming) évaluée sur la sortie de la recherche en faisceau. Bien que bien définie, cette objectif de « perte directe » est lui-même discontinu et donc difficile à optimiser. Par conséquent, dans notre approche, nous formons un objectif substitut sous-différentiable en introduisant une nouvelle approximation continue de la procédure de décodage en faisceau. Dans nos expériences, nous montrons que l'optimisation de cet nouvel objectif d'entraînement produit des résultats substantiellement meilleurs sur deux tâches de séquence (Reconnaissance d'Entités Nommées et Étiquetage Supertagging CCG) comparativement aux baselines du décodage gourmand et du décodage en faisceau entraînés par entropie croisée.