Peut-on remplacer les modèles traditionnels de KBQA par ChatGPT ? Une analyse approfondie de la performance de réponse aux questions au sein de la famille de modèles LLM GPT

ChatGPT est un puissant modèle de langage à grande échelle (LLM) qui intègre des ressources de connaissance telles que Wikipedia et permet de répondre à des questions en langage naturel grâce à ses propres connaissances. En conséquence, un intérêt croissant se manifeste quant à la possibilité de remplacer les modèles traditionnels de réponse aux questions basés sur des connaissances (KBQA) par ChatGPT. Bien qu’une certaine littérature ait déjà analysé les performances de ChatGPT en matière de réponse aux questions, il manque encore des évaluations à grande échelle et complètes couvrant divers types de questions complexes, afin d’identifier les limites du modèle. Dans cet article, nous proposons un cadre d’évaluation conforme aux spécifications de test en boîte noire définies par CheckList, tel que proposé par Ribeiro et al. Nous évaluons ChatGPT ainsi que sa famille de modèles LLM sur huit jeux de données réels de réponse aux questions complexes basés sur des bases de connaissances, comprenant six jeux de données en anglais et deux jeux multilingues. Le nombre total de cas de test s’élève à environ 190 000. En plus des modèles de la famille GPT, nous évaluons également FLAN-T5, un modèle largement reconnu, afin d’identifier les similarités entre la famille GPT et d’autres modèles LLM. Les jeux de données et le code sont disponibles à l’adresse suivante : https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git