il y a 2 mois

Distiller un ensemble de parseurs de dépendances gloutons en un seul parseur MST

Adhiguna Kuncoro; Miguel Ballesteros; Lingpeng Kong; Chris Dyer; Noah A. Smith

Résumé

Nous présentons deux analyseurs de dépendances basés sur des graphes du premier ordre atteignant un nouveau niveau d'excellence. Le premier est un analyseur par consensus construit à partir d'un ensemble d'analyseurs de transition LSTM gourmands formés indépendamment avec différentes initialisations aléatoires. Nous conceptualisons cette approche comme une décodification minimisant le risque de Bayes (sous le coût de Hamming) et soutenons que la faiblesse du consensus au sein de l'ensemble est un signal utile de difficulté ou d'ambiguïté. Le deuxième analyseur est une « distillation » de l'ensemble en un seul modèle. Nous formons l'analyseur distillé en utilisant un objectif de perte charnière structurée avec un coût novateur qui intègre les estimations d'incertitude de l'ensemble pour chaque attachement possible, évitant ainsi les calculs d'entropie croisée irréalisables nécessités par l'application des objectifs de distillation standards aux problèmes à sorties structurées. L'analyseur distillé du premier ordre égale ou dépasse l'état de l'art en anglais, chinois et allemand.