هل يمكن للنماذج الأساسية العامة أن تتفوق على التuning المخصص؟ دراسة حالة في الطب

النماذج الأساسية العامة مثل GPT-4 أظهرت قدرات مفاجئة في مجموعة واسعة من المجالات والمهمات. ومع ذلك، هناك افتراض شائع بأنها لا تستطيع مجاراة قدرات النماذج المتخصصة المدربة بدقة. على سبيل المثال، كانت معظم الدراسات حتى الآن حول مقاييس الكفاءة الطبية قد استفادت من التدريب الخاص بالمجال، كما هو موضح في الجهود المبذولة على BioGPT و Med-PaLM. نحن نبني على دراسة سابقة حول قدرات GPT-4 على مقاييس التحدي الطبي دون الحاجة إلى تدريب خاص. بدلاً من استخدام الإثارة البسيطة لتسليط الضوء على قدرات النموذج الجاهزة، نقوم بإجراء استكشاف منهجي للهندسة الإثارية (prompt engineering). وجدنا أن الابتكار في الإثارة يمكن أن يفتح القدرات المتخصصة الأعمق ويظهر أن GPT-4 يتفوق بسهولة على النتائج الرائدة السابقة في مقاييس الكفاءة الطبية. طرق الإثارة التي نستكشفها هي ذات غرض عام ولا تستخدم بشكل خاص الخبرة في المجال، مما يزيل الحاجة إلى المحتوى الذي يتم تحريره من قبل الخبراء. تصميمنا التجريبي يتحكم بعناية في الانعراج الزائد (overfitting) أثناء عملية الهندسة الإثارية. نقدم Medprompt، وهو يستند إلى تركيب عدة استراتيجيات إثارية. باستخدام Medprompt، يصل GPT-4 إلى أفضل النتائج الحالية في جميع مجموعات البيانات التسعة ضمن حزمة MultiMedQA. تتفوق هذه الطريقة على النماذج المتخصصة الرائدة مثل Med-PaLM 2 بمقدار كبير مع عدد أقل بكثير من الدعوات للنموذج بمقدار عامل واحد (by an order of magnitude fewer calls to the model). توجيه GPT-4 باستخدام Medprompt يؤدي إلى انخفاض بنسبة 27% في معدل الخطأ في مجموعة بيانات MedQA مقارنة بأفضل الطرق التي تم تحقيقها حتى الآن باستخدام النماذج المتخصصة ويتجاوز نسبة 90% لأول مرة. بالإضافة إلى المشكلات الطبية، نظهر قوة Medprompt في التعميم إلى مجالات أخرى ونقدم دليلاً على مدى نطاق التطبيق الواسع للنهج عبر دراسات الاستراتيجية في اختبارات الهندسة الكهربائية والتعلم الآلي والفلسفة والمحاسبة والقانون والتمريض والنفس السريري.