Kann ChatGPT traditionelle KBQA-Modelle ersetzen? Eine detaillierte Analyse der Fragebeantwortungsleistung der GPT-LLM-Familie

ChatGPT ist ein leistungsstarker Großsprachmodell (Large Language Model, LLM), das Wissensressourcen wie Wikipedia umfasst und natürliche Sprachfragen mithilfe seines eigenen Wissens beantworten kann. Daher wächst das Interesse daran, zu untersuchen, ob ChatGPT traditionelle, auf Wissensbasen basierende Frage-Antwort-Modelle (Knowledge-Based Question Answering, KBQA) ersetzen kann. Obwohl bereits einige Arbeiten die Frage-Antwort-Leistung von ChatGPT analysiert haben, fehlt es weiterhin an großskaligen, umfassenden Tests verschiedener Arten komplexer Fragen, um die Grenzen des Modells systematisch zu erfassen. In diesem Paper präsentieren wir einen Rahmen, der den Spezifikationen für Black-Box-Tests folgt, wie sie von Ribeiro et al. im Rahmen von CheckList vorgeschlagen wurden. Wir evaluieren ChatGPT und seine Familie von LLMs an acht realweltbasierten, auf Wissensbasen basierenden Datensätzen komplexer Frage-Antwort-Aufgaben, darunter sechs englischsprachige und zwei mehrsprachige Datensätze. Die Gesamtanzahl der Testfälle beträgt etwa 190.000. Neben der GPT-Familie von LLMs bewerten wir auch das bekannte FLAN-T5, um Gemeinsamkeiten zwischen der GPT-Familie und anderen LLMs zu identifizieren. Die Datensätze und der Code sind unter https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git verfügbar.