vor 2 Monaten

ChatQA: Übertrifft GPT-4 bei konversationellen QA und RAG

Zihan Liu; Wei Ping; Rajarshi Roy; Peng Xu; Chankyu Lee; Mohammad Shoeybi; Bryan Catanzaro

Abstract

In dieser Arbeit stellen wir ChatQA vor, eine Suite von Modellen, die GPT-4 bei der erweiterten Generierung (Retrieval-Augmented Generation, RAG) und dem konversationsbasierten Fragenbeantworten (Conversational Question Answering, QA) übertrifft. Um die Generierung zu verbessern, schlagen wir eine zweistufige Anweisungstuning-Methode vor, die die Leistung von RAG erheblich steigert. Für effektive Retrieval führen wir einen dichten Retriever ein, der für das konversationsbasierte QA optimiert ist. Dieser liefert Ergebnisse, die den alternativen state-of-the-art Query-Rewriting-Modellen vergleichbar sind, während er gleichzeitig die Bereitstellungskosten erheblich reduziert. Wir präsentieren zudem den ChatRAG-Bench, der zehn Datensätze umfasst und umfassende Bewertungen in Bezug auf RAG, tabellenbezogene QA, arithmetische Berechnungen und Szenarien mit unbeantwortbaren Fragen abdeckt. Unser ChatQA-1.0-70B (Punktzahl: 54,14), das auf Llama2 basiert – einem schwächeren Grundmodell als GPT-4 – kann den GPT-4-0613 (Punktzahl: 53,90) und den GPT-4-Turbo-2024-04-09 (Punktzahl: 54,03) im ChatRAG-Bench leicht übertreffen, ohne auf synthetische Daten aus OpenAI-GPT-Modellen zurückzugreifen. Bemerkenswerterweise übertrifft das Llama3-ChatQA-1.5-70B-Modell die Genauigkeit des GPT-4-Turbo-2024-04-09 um 4,4 %. Um Forschung in diesem Bereich zu fördern, haben wir die Modellgewichte, Anweisungstuning-Daten, den ChatRAG-Bench und den Retriever für die Gemeinschaft öffentlich zur Verfügung gestellt: https://chatqa-project.github.io/.