HyperAIHyperAI

Command Palette

Search for a command to run...

CapeLLM: تقدير الوضعية بدون دعم ودون فئات باستخدام نماذج اللغة الكبيرة متعددة الوسائط

Junho Kim Hyungjin Chung Byung-Hoon Kim

الملخص

التقدير المعرفي للوضع (CAPE) كان يعتمد تقليديًا على صور داعمة تحتوي على نقاط مفتاحية مشمولة بالتعليقات، وهي عملية غالبًا ما تكون معقدة وقد تفشل في التقاط التوافق اللازم عبر فئات الأشياء المختلفة. ومع ذلك، فقد بدأت الجهود الحديثة في استكشاف استخدام الاستفسارات النصية، حيث يتم القضاء على الحاجة إلى نقاط مفتاحية داعمة. ومع ذلك، فإن الاستخدام الأمثل للوصف النصي لنقاط المفاتيح لا يزال مجالًا قليل البحث. في هذا العمل، نقدم CapeLLM، وهو نهج جديد يستفيد من نموذج لغوي كبير متعدد الوسائط يستند إلى النص (MLLM) لـ CAPE. طريقة عملنا تعتمد فقط على الصورة الاستفسارية والوصف النصي التفصيلي كمدخلات لتقدير النقاط المفتاحية غير المرتبطة بالفئة. نقوم بإجراء تجارب واسعة لتقصي الفضاء التصميمي لـ CAPE المستند إلى نماذج اللغة الكبيرة (LLM)، مستكشفين عوامل مثل اختيار الوصف الأمثل للنقاط المفتاحية، هياكل الشبكات العصبية، واستراتيجيات التدريب. بفضل قدرات الاستدلال المتقدمة للنموذج اللغوي الكبير المسبق التدريب (MLLM)، يظهر CapeLLM أداءً عامًا أفضل وأكثر ثباتًا. يحدد نهجنا مستوى جديد من الطليعية في معيار MP-100 في الإعداد الصعب ذو اللقطة الواحدة (1-shot setting)، مما يمثل تقدمًا كبيرًا في مجال تقدير الوضع غير المرتبط بالفئة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp