ChatQA: تجاوز GPT-4 في أسئلة الإجابة التفاعلية وتكامل الاسترجاع والتوثيق

في هذا العمل، نقدم ChatQA، وهي مجموعة من النماذج التي تتفوق على GPT-4 في التوليد المعزز بالاسترجاع (RAG) والأسئلة والإجابات المحادثية (QA). لتعزيز التوليد، نقترح طريقة تعديل التعليمات ذات المرحلتين التي تزيد بشكل كبير من أداء RAG. بالنسبة للاسترجاع الفعال، نقدم جهاز استرجاع كثيف مُحسَّن للأسئلة والإجابات المحادثية، مما ينتج عنه نتائج مماثلة لنماذج إعادة صياغة الاستعلامات البديلة الرائدة في مجالها، مع تقليل كبير في تكاليف التنفيذ. كما نقدم مقاييس ChatRAG Bench، والتي تشمل عشرة مجموعات بيانات تغطي تقييمات شاملة على RAG وQA المتعلقة بالجداول والحسابات الحسابية والسيناريوهات التي تتضمن أسئلة غير قابلة للإجابة. نموذجنا ChatQA-1.0-70B (النقاط: 54.14)، الذي تم بناؤه على أساس Llama2 وهو نموذج أساسي أضعف من GPT-4، يمكن أن يتفوق قليلاً على GPT-4-0613 (النقاط: 53.90) وGPT-4-Turbo-2024-04-09 (النقاط: 54.03) في مقاييس ChatRAG Bench دون الاعتماد على أي بيانات مصنعة من نماذج GPT التابعة لشركة OpenAI. وبشكل ملفت للنظر، فإن نموذج Llama3-ChatQA-1.5-70B يتجاوز دقة GPT-4-Turbo-2024-04-09 بتحقيق تحسن بنسبة 4.4%. لدفع البحث في هذا المجال قدماً، قمنا بإتاحة مصدر النماذج والأوزان والبيانات المستخدمة في تعديل التعليمات ومقاييس ChatRAG Bench وجهاز الاسترجاع للمجتمع العلمي: https://chatqa-project.github.io/.