تجاوز التخصص: تقييم قدرات النماذج اللغوية الكبيرة المتعددة في تقدير العمر والجنس

قد اكتسبت نماذج اللغات الكبيرة متعددة الأوضاع (MLLMs) شعبية كبيرة مؤخرًا. تشمل هذه النماذج القوية التجارية مثل ChatGPT-4V وGemini، بالإضافة إلى النماذج المفتوحة المصدر مثل LLaVA، والتي تعتبر في الأساس نماذج ذات أغراض عامة وتُستخدم لحل مجموعة متنوعة من المهام، بما في ذلك تلك المتعلقة بالرؤية الحاسوبية. تتمتع هذه الشبكات العصبية بمعرفة عامة قوية وقدرات استدلالية بحيث أثبتت قدرتها على العمل حتى في المهام التي لم يتم تدريبها عليها بشكل خاص. قارنا بين إمكانيات أقوى نماذج MLLM حاليًا: ShareGPT4V وChatGPT وLLaVA-Next في مهمة متخصصة لتقدير العمر والجنس باستخدام نموذجنا المتخصص الذي يعتبر من أفضل ما تم الوصول إليه حاليًا، MiVOLO. كما قمنا بتحديث MiVOLO ونقدم التفاصيل والمقياس الجديد في هذا المقال. قد أدت هذه المقارنة إلى بعض النتائج والأفكار المثيرة للإهتمام حول نقاط القوة والضعف للنماذج المشاركة. بالإضافة إلى ذلك، جربنا طرقًا مختلفة لتغليظ نموذج ShareGPT4V لهذه المهمة الخاصة، بهدف تحقيق أفضل النتائج فيها. رغم أن مثل هذا النموذج لن يكون عمليًا في الإنتاج بسبب كونه غالي الثمن للغاية مقارنة بنموذج متخصص مثل MiVOLO، إلا أنه يمكن أن يكون مفيدًا جدًا في بعض المهام، مثل تسمية البيانات (data annotation).