مايكل أنجلو
مايكل أنجلو هي طريقة اقترحها باحثو DeepMind في عام 2024 لتقييم قدرة نماذج اللغة الكبيرة على التفكير في سياقات نصية طويلة. يستخدم إطار عمل يسمى استعلامات البنية الكامنة (LSQ) لإنشاء مهام تقييم نصية طويلة اصطناعية يمكنها تمديد طول السياق بشكل تعسفي وتعيين مستويات تعقيد مختلفة مع تجنب تسريب السياق من التقييمات السابقة. نتائج الورقة ذات الصلة هيمايكل أنجلو: تقييمات السياق الطويل تتجاوز أكوام القش عبر استعلامات البنية الكامنة".
يحتوي Michelangelo على 3 مهام بسيطة: القائمة الكامنة، وحل الترابط متعدد الجولات (MRCR) وIDK. تم تصميم هذه المهام لاختبار قدرات النموذج على التركيب والاستدلال في سياق النصوص الطويلة، وهي قدرات تتجاوز مهام استرجاع المعلومات البسيطة. على سبيل المثال، تتطلب مهمة القائمة الكامنة من النموذج تتبع خصائص بنية البيانات الكامنة في سلسلة من تعليمات التعليمات البرمجية؛ تتطلب مهمة MRCR من النموذج فهم الترتيب في النص الطبيعي، والتمييز بين مسودات النصوص المتشابهة، وإعادة إنتاج أجزاء سياقية محددة في الاستعلامات المعقدة؛ تختبر مهمة IDK ما إذا كان النموذج قادرًا على فهم المعلومات التي لا يعرفها في سياق معين.