فِيتا: نحو تخصيص النماذج الأساسية لتطبيقات المهام الخبيرة

نموذجات الأساس (FMs) أظهرت قدرات غير مسبوقة تشمل التعلم صفر المعرفة، وتركيب بيانات عالي الوضوح، والتعميم خارج النطاق. ومع ذلك، كما نوضح في هذه الورقة، تظل نماذج الأساس أداءً ضعيفًا عند استخدامها مباشرةً في المهام المتخصصة (مثل استرجاع رسومات فنية من كتيبات سيارات استجابةً لاستفسارات لغوية)، حيث تكون البيانات المتعلقة بهذه المهام إما غير مرئية أثناء التدريب المسبق على النماذج، أو تنتمي إلى جزء طويل الذيل من توزيع البيانات في المجموعات الضخمة المستخدمة في التدريب المسبق. هذا يُبرز الحاجة إلى تقييم وتعديل دقيق لنماذج الأساس في مثل هذه المهام المتخصصة، والتي يمكن القول إنها الأكثر شيوعًا في التطبيقات الواقعية العملية. في هذه الورقة، نقترح إنشاء معيار أول من نوعه يُسمى FETA، مبني حول المهمة التي تهدف إلى تعليم النماذج فهم الوثائق الفنية من خلال تعلم ربط الصور التوضيحية بها وصفات لغوية مطابقة. يركّز معيار FETA على مهام استرجاع النص إلى الصورة والصورة إلى النص في كتيبات سيارات عامة وكتيبات مبيعات. ويُزوّد معيار FETA بإجراء لاستخراج التسميات تلقائيًا بالكامل (سيتم إصدار الشفرة البرمجية بعد قبول الورقة)، ما يسمح بسهولة توسيع FETA لتشمل أنواعًا أخرى من الوثائق وتطبيقات ميدانية مختلفة في المستقبل. يؤدي هذا الاستخراج التلقائي إلى مؤشر أداء تلقائي أُثبتت صحته من خلال مقارنته بمؤشرات تم حسابها باستخدام تسميات مُعدّة يدويًا من قبل البشر (وسيتم أيضًا إصدارها). نقدّم عدة قواعد مقارنة (baselines) وتحليلًا للنماذج الأساسية الشهيرة على معيار FETA، ما أدى إلى عدد من النتائج المثيرة التي نعتقد أنها ستكون ذات قيمة كبيرة للمجتمع البحثي في مجال النماذج الأساسية، وتفتح الطريق أمام تطبيق نماذج الأساس في المهام المتخصصة العملية التي تُهمل حاليًا من قبل المعايير القياسية التي تركز على الكائنات الشائعة.