خطة Karpathy لاستخدام البيانات الغير مصنفة عبر التسمية الوهمية
الملخص الرئيسي في تطور جديد في مجال الذكاء الاصطناعي، قدم فريق بحثي من جامعة فرجينيا الأمريكية بقيادة البروفيسور شن تشيونغ طريقة جديدة تُعرف باسم MAPLE (Many-Shot Adaptive Pseudo-LabEling). هذه الطريقة تهدف إلى تحسين أداء نماذج اللغات الكبيرة في بيئات البيانات ذات التسمية المنخفضة عبر الاستفادة من البيانات غير المصنفة. يعتمد هذا الأسلوب على تقنية بناء الرسم البياني الذي يربط البيانات المصنفة وغير المصنفة لاختيار أمثل للعينات غير المصنفة التي لها أكبر تأثير على المهمة، ثم استخدام النموذج الكبير للغة لتسميتها بـ«التسميات الوهمية». هذا الأسلوب يتميز بقدرته على زيادة كفاءة التعلم من خلال اختيار العينات الأكثر صلة لكل سؤال اختبار بذكاء، بدلاً من استخدام نموذج ثابت. أجرى الفريق العديد من التجارب التي أكدت أن هذه الطريقة تقلل من الاعتماد على البيانات المكلفة والمصنفة، كما أنها تتفوق في العديد من المهام الحقيقية. وفقًا للخبراء، تعتبر هذه الدراسة خطوة مهمة نحو تعزيز استخدام نماذج اللغات الكبيرة في بيئات بيانات ذات مستويات تسمية منخفضة. يمكن تطبيق هذه الطريقة في عدة مجالات، بما في ذلك أنظمة خدمة العملاء والأسئلة والأجوبة، حيث توجد كميات كبيرة من البيانات التاريخية غير المصنفة. في المجالات المتخصصة مثل الطب والمال، يمكن استخدام طريقة MAPLE لبناء نظم أسئلة وأجوبة أو ملخصات أكثر دقة باستخدام بيانات خبراء قليلة وبكميات كبيرة من البيانات غير المصنفة. بالنسبة للتعليم، يمكن استخدام هذه الطريقة لتقديم شروحات تلقائية أو تعليقات على الواجبات الدراسية. في اللغات ذات الموارد المنخفضة، يمكن استخدام التسميات الوهمية لتسريع تطوير أنظمة الذكاء الاصطناعي. الرسالة السياقية تعتبر تقنية التعلم السياقي (In-context Learning) من الأساليب الحديثة في الذكاء الاصطناعي، حيث يتعلم النموذج من الأمثلة المقدمة له في السياق دون الحاجة لإعادة تدريبه. مع تطور نماذج اللغات الكبيرة، أصبحت هذه التقنية أكثر قدرة على معالجة النصوص الطويلة، مما يوفر فرصًا جديدة للتعلم السياقي. ومع ذلك، فإن تكلفة تسمية البيانات كبيرة، خاصة في مجالات جديدة أو مهمات معقدة. من هنا جاءت فكرة MAPLE، حيث يسعى الفريق إلى تحسين جودة التسميات الوهمية ومتانتها، وتوسيع نطاق تطبيقها إلى مهام وحقول مختلفة. هذه الدراسة نُشرت في المؤتمر الدولي الـ ٤٢ للتعلم الآلي (ICML)، وقد أثارت اهتمامًا كبيرًا في المجتمع العلمي.