مشروع AnyCap: إطار موحد، ومجموعة بيانات، ونموذج مرجعي للتعليق متعدد الأوضاع القابل للتحكم

التعليق القابل للتحكم ضروري لتحقيق التوافق الدقيق بين الأوضاع المتعددة والالتزام بالتعليمات، ومع ذلك غالباً ما تفتقر النماذج الحالية إلى التحكم الدقيق وبروتوكولات التقييم الموثوقة. لسد هذه الفجوة، نقدم مشروع AnyCap، وهو حل متكامل يشمل النموذج والبيانات والتقييم. نقدم AnyCapModel (ACM)، وهو إطار خفيف يمكن دمجه بسهولة يعزز قابلية التحكم في النماذج الأساسية الحالية للتعليق على الأوضاع المتعددة دون إعادة تدريب النموذج الأساسي. يقوم ACM بإعادة استخدام التعليقات الأصلية من النماذج الأساسية مع إدخال تعليمات المستخدم وميزات الوضع لتوليد تعليقات محسنة. لحل مشكلة نقص البيانات في التعليق القابل للتحكم على الأوضات المتعددة، نقوم ببناء AnyCapDataset (ACD)، الذي يغطي ثلاثة أوضاع و28 نوعاً من تعليمات المستخدم و300,000 مدخل بيانات عالي الجودة. بالإضافة إلى ذلك، نقترح AnyCapEval، وهو مقاييس جديد يقدم معايير تقييم أكثر موثوقية للتعليق القابل للتحكم من خلال فصل دقة المحتوى والأمانة الإسلوبية. يحسن ACM بشكل كبير جودة التعليقات عبر مجموعة متنوعة من النماذج الأساسية على AnyCapEval. وبشكل لافت للنظر، يرفع ACM-8B درجات المحتوى الخاصة بـ GPT-4o بنسبة 45٪ ودرجات الأسلوب بنسبة 12٪، كما يحقق مكاسب كبيرة على مقاييس شائعة الاستخدام مثل MIA-Bench وVidCapBench.