Sur l’extraction de la syntaxe à partir des modèles de langage par hachage

L'analyse non supervisée, également connue sous le nom d'induction de grammaire, vise à inférer la structure syntaxique à partir de texte brut. Récemment, la représentation binaire a montré des capacités remarquables de conservation d'information aux niveaux du lexique et de la syntaxe. Dans cet article, nous explorons la possibilité d'utiliser cette capacité pour déduire des arbres de parsing à partir de texte brut, en nous appuyant uniquement sur les grammaires implicitement induites au sein des modèles. Pour ce faire, nous améliorons l'algorithme CKY au niveau bit de zéro-ordre à premier-ordre afin d'encoder le lexique et la syntaxe dans un espace de représentation binaire unifié, nous passons l'entraînement du modèle du mode supervisé au mode non supervisé dans le cadre du hachage contrastif, et nous introduisons une nouvelle fonction de perte pour imposer des signaux d'alignement plus forts mais équilibrés. Notre modèle montre des performances compétitives sur divers jeux de données, ce qui nous permet d'affirmer que notre méthode est suffisamment efficace et performante pour acquérir des arbres de parsing de haute qualité à partir de modèles linguistiques pré-entraînés à moindre coût.