2달 전

ChatQA: GPT-4를 능가하는 대화형 QA 및 RAG

Zihan Liu; Wei Ping; Rajarshi Roy; Peng Xu; Chankyu Lee; Mohammad Shoeybi; Bryan Catanzaro
ChatQA: GPT-4를 능가하는 대화형 QA 및 RAG
초록

이 연구에서는 GPT-4보다 우수한 검색 기반 생성(Retrieval-Augmented Generation, RAG) 및 대화형 질문 응답(Conversational Question Answering, QA) 모델인 ChatQA를 소개합니다. 생성 성능을 향상시키기 위해 두 단계의 지시어 조정 방법을 제안하며, 이는 RAG의 성능을 크게 향상시킵니다. 효과적인 검색을 위해 대화형 QA에 최적화된 밀집 검색기(Dense Retriever)를 도입하여, 대안적인 최신 쿼리 재작성 모델과 유사한 결과를 얻으면서 배포 비용을大幅减少(대폭 절감)합니다. 또한, RAG, 표 관련 QA, 산술 계산 및 답변 불가능한 질문 시나리오를 포괄적으로 평가하는 10개의 데이터셋으로 구성된 ChatRAG 벤치마크를 제시합니다. OpenAI GPT 모델에서 생성된 합성 데이터를 사용하지 않은 상태에서, Llama2라는 GPT-4보다 약한 기초 모델로 구축된 ChatQA-1.0-70B (점수: 54.14)는 GPT-4-0613 (점수: 53.90)와 GPT-4-Turbo-2024-04-09 (점수: 54.03)보다 약간 높은 성능을 보입니다. 특히 Llama3-ChatQA-1.5-70B 모델은 GPT-4-Turbo-2024-04-09의 정확도를 넘어 4.4%의 개선을 이루었습니다. 이 분야의 연구 발전을 위해 모델 가중치, 지시어 조정 데이터, ChatRAG 벤치마크 및 검색기를 오픈 소스로 공개합니다: https://chatqa-project.github.io/.

ChatQA: GPT-4를 능가하는 대화형 QA 및 RAG | 최신 연구 논문 | HyperAI초신경