HyperAIHyperAI
il y a 11 jours

Amélioration de la généralisation dans l'analyse sémantique texte-vers-SQL basée sur les modèles linguistiques : Deux techniques simples fondées sur les frontières sémantiques

Daking Rai, Bailin Wang, Yilun Zhou, Ziyu Yao
Amélioration de la généralisation dans l'analyse sémantique texte-vers-SQL basée sur les modèles linguistiques : Deux techniques simples fondées sur les frontières sémantiques
Résumé

La généralisation compositionnelle et domaine-sélective pose des défis importants dans le traitement sémantique, même pour les parseurs sémantiques de pointe basés sur des modèles linguistiques pré-entraînés (LM). Dans cette étude, nous explorons empiriquement l'amélioration de la généralisation d'un LM dans le cadre du traitement sémantique à l'aide de deux techniques simples : au niveau des tokens, nous introduisons une méthode de prétraitement de tokens visant à préserver les frontières sémantiques des tokens générés par les tokeniseurs de LM ; au niveau des séquences, nous proposons d'utiliser des tokens spéciaux pour marquer les frontières des composants alignés entre l'entrée et la sortie. Nos résultats expérimentaux sur deux jeux de données de traitement text-to-SQL montrent que notre méthode de prétraitement de tokens, bien qu'élémentaire, améliore significativement les performances du LM sur les deux types de généralisation, tandis que notre méthode de marquage des frontières des composants s'avère particulièrement efficace pour la généralisation compositionnelle.

Amélioration de la généralisation dans l'analyse sémantique texte-vers-SQL basée sur les modèles linguistiques : Deux techniques simples fondées sur les frontières sémantiques | Articles de recherche récents | HyperAI