il y a 11 jours

ST-Raptor : interrogation de tables semi-structurées pilotée par les modèles linguistiques

Zirui Tang, Boyu Niu, Xuanhe Zhou, Boxiu Li, Wei Zhou, et al

Résumé

Les tableaux semi-structurés, largement utilisés dans des applications du monde réel (par exemple, rapports financiers, dossiers médicaux, commandes transactionnelles), comportent souvent des mises en page flexibles et complexes (par exemple, en-têtes hiérarchiques, cellules fusionnées). Ces tableaux nécessitent généralement l’intervention d’analystes humains pour interpréter leur structure et répondre à des questions formulées en langage naturel, une démarche coûteuse et inefficace. Pour automatiser ce processus, les méthodes existantes font face à des défis majeurs. Premièrement, des approches telles que NL2SQL exigent de convertir les tableaux semi-structurés en tableaux structurés, ce qui entraîne souvent une perte importante d’information. Deuxièmement, des méthodes comme NL2Code ou les modèles multimodaux de question-réponse à base de grands modèles linguistiques peinent à comprendre les mises en page complexes des tableaux semi-structurés, et ne parviennent pas à fournir des réponses précises aux questions correspondantes. À cet effet, nous proposons ST-Raptor, un cadre fondé sur les arbres pour la question-réponse sur les tableaux semi-structurés, utilisant des grands modèles linguistiques. Premièrement, nous introduisons le modèle structural appelé Arbre Orthogonal Hiérarchique (HO-Tree), qui permet de capturer efficacement les mises en page complexes des tableaux semi-structurés, accompagné d’un algorithme efficace de construction de cet arbre. Deuxièmement, nous définissons un ensemble d’opérations de base sur les arbres afin de guider les grands modèles linguistiques dans l’exécution de tâches courantes de question-réponse. Étant donné une question utilisateur, ST-Raptor la décompose en sous-questions plus simples, génère des pipelines d’opérations arborescentes correspondants, puis effectue une alignment entre opérations et tableaux pour une exécution précise du pipeline. Troisièmement, nous intégrons un mécanisme de vérification en deux étapes : une validation en avant vérifie la correction des étapes d’exécution, tandis qu’une validation en arrière évalue la fiabilité de la réponse en reconstruisant la requête à partir de la réponse prédite. Pour évaluer les performances, nous présentons SSTQA, un jeu de données comprenant 764 questions posées sur 102 tableaux semi-structurés réels. Les expérimentations montrent que ST-Raptor surpasser les neuf méthodes de référence, avec une amélioration allant jusqu’à 20 % en précision des réponses. Le code source est disponible à l’adresse suivante : [https://...].