CapeLLM: تقدير الوضعية بدون دعم ودون فئات باستخدام نماذج اللغة الكبيرة متعددة الوسائط

التقدير المعرفي للوضع (CAPE) كان يعتمد تقليديًا على صور داعمة تحتوي على نقاط مفتاحية مشمولة بالتعليقات، وهي عملية غالبًا ما تكون معقدة وقد تفشل في التقاط التوافق اللازم عبر فئات الأشياء المختلفة. ومع ذلك، فقد بدأت الجهود الحديثة في استكشاف استخدام الاستفسارات النصية، حيث يتم القضاء على الحاجة إلى نقاط مفتاحية داعمة. ومع ذلك، فإن الاستخدام الأمثل للوصف النصي لنقاط المفاتيح لا يزال مجالًا قليل البحث. في هذا العمل، نقدم CapeLLM، وهو نهج جديد يستفيد من نموذج لغوي كبير متعدد الوسائط يستند إلى النص (MLLM) لـ CAPE. طريقة عملنا تعتمد فقط على الصورة الاستفسارية والوصف النصي التفصيلي كمدخلات لتقدير النقاط المفتاحية غير المرتبطة بالفئة. نقوم بإجراء تجارب واسعة لتقصي الفضاء التصميمي لـ CAPE المستند إلى نماذج اللغة الكبيرة (LLM)، مستكشفين عوامل مثل اختيار الوصف الأمثل للنقاط المفتاحية، هياكل الشبكات العصبية، واستراتيجيات التدريب. بفضل قدرات الاستدلال المتقدمة للنموذج اللغوي الكبير المسبق التدريب (MLLM)، يظهر CapeLLM أداءً عامًا أفضل وأكثر ثباتًا. يحدد نهجنا مستوى جديد من الطليعية في معيار MP-100 في الإعداد الصعب ذو اللقطة الواحدة (1-shot setting)، مما يمثل تقدمًا كبيرًا في مجال تقدير الوضع غير المرتبط بالفئة.