HyperAIHyperAI
il y a 2 mois

Co-formation d'un analyseur de constituants non supervisé avec une supervision faible

Nickil Maveli; Shay B. Cohen
Co-formation d'un analyseur de constituants non supervisé avec une supervision faible
Résumé

Nous présentons une méthode de parsing non supervisé qui repose sur l'utilisation de classifieurs bootstrap pour identifier si un nœud domine une span spécifique dans une phrase. Il existe deux types de classifieurs : un classifieur interne qui agit sur une span, et un classifieur externe qui agit sur tout ce qui est en dehors d'une span donnée. Grâce à l'auto-apprentissage et au co-apprentissage avec ces deux classifieurs, nous démontrons que leur interaction mutuelle aide à améliorer la précision des deux, et par conséquent, permet un parsing efficace. Une technique de bootstrap à partir d'un ensemble initial prépare les données pour entraîner ces classifieurs. Nos analyses montrent également que cette approche, combinée à une supervision faible utilisant des connaissances antérieures de branchement d'une langue connue (branchement gauche/droit) et des heuristiques minimales, injecte un biais inductif fort dans le parseur, atteignant ainsi un score F$_1$ de 63,1 sur l'ensemble de test anglais (PTB). De plus, nous montrons l'efficacité de notre architecture en évaluant sur des arbres syntaxiques pour le chinois (CTB) et le japonais (KTB), obtenant ainsi de nouveaux résultats d'état de l'art. Notre code source et nos modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/Nickil21/weakly-supervised-parsing.