HyperAIHyperAI

Command Palette

Search for a command to run...

Sur l’extraction de la syntaxe à partir des modèles de langage par hachage

Yiran Wang Masao Utiyama

Résumé

L'analyse non supervisée, également connue sous le nom d'induction de grammaire, vise à inférer la structure syntaxique à partir de texte brut. Récemment, la représentation binaire a montré des capacités remarquables de conservation d'information aux niveaux du lexique et de la syntaxe. Dans cet article, nous explorons la possibilité d'utiliser cette capacité pour déduire des arbres de parsing à partir de texte brut, en nous appuyant uniquement sur les grammaires implicitement induites au sein des modèles. Pour ce faire, nous améliorons l'algorithme CKY au niveau bit de zéro-ordre à premier-ordre afin d'encoder le lexique et la syntaxe dans un espace de représentation binaire unifié, nous passons l'entraînement du modèle du mode supervisé au mode non supervisé dans le cadre du hachage contrastif, et nous introduisons une nouvelle fonction de perte pour imposer des signaux d'alignement plus forts mais équilibrés. Notre modèle montre des performances compétitives sur divers jeux de données, ce qui nous permet d'affirmer que notre méthode est suffisamment efficace et performante pour acquérir des arbres de parsing de haute qualité à partir de modèles linguistiques pré-entraînés à moindre coût.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp