CABINET : Réduction du bruit basée sur la pertinence du contenu pour la réponse à des questions sur des tableaux

La capacité des grands modèles linguistiques (LLM) à comprendre les tableaux a fait l’objet d’études approfondies via la tâche de réponse à des questions (QA) sur des tableaux. En général, seule une petite partie d’un tableau entier est pertinente pour répondre à une question donnée. Les parties non pertinentes agissent comme du bruit et constituent des informations distractrices, entraînant des performances sous-optimales en raison de la sensibilité des LLM au bruit. Pour atténuer ce problème, nous proposons CABINET (Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering), un cadre permettant aux LLM de se concentrer sur les données tabulaires pertinentes en supprimant les informations superflues. CABINET intègre un Scoring de Pertinence Non Supervisé (URS), entraîné de manière différentielle avec le modèle LLM de réponse à questions (QA LLM), qui évalue la pertinence du contenu du tableau par rapport à la question d’entrée avant de le transmettre au modèle QA LLM. Pour renforcer davantage le scoreur de pertinence, CABINET utilise un module faiblement supervisé qui génère une déclaration d’analyse décrivant les critères des lignes et colonnes pertinentes pour la question, tout en mettant en évidence les contenus des cellules correspondantes. CABINET surpasse significativement diverses bases de modèles tabulaires LLM, ainsi que les méthodes d’apprentissage in-context basées sur GPT-3, présente une meilleure robustesse face au bruit, maintient ses performances sur des tableaux de tailles variées, et établit de nouvelles performances SoTA sur les jeux de données WikiTQ, FeTaQA et WikiSQL. Nous mettons à disposition notre code et nos jeux de données à l’adresse suivante : https://github.com/Sohanpatnaik106/CABINET_QA.