HyperAIHyperAI

Command Palette

Search for a command to run...

LISA: تقسيم الاستدلال عبر نموذج اللغة الكبير

Xin Lai; Zhuotao Tian; Yukang Chen; Yanwei Li; Yuhui Yuan; Shu Liu; Jiaya Jia

الملخص

رغم التقدم الملحوظ الذي أحرزته أنظمة الإدراك في السنوات الأخيرة، فإنها لا تزال تعتمد على التعليمات البشرية الصريحة أو الفئات المحددة مسبقًا لتحديد الأهداف قبل تنفيذ مهام التعرف البصري. هذه الأنظمة غير قادرة على الاستدلال النشط وفهم نوايا المستخدم الضمنية. في هذا البحث، نقترح مهمة جديدة للتقسيم -- التقسيم الاستدلالي. تم تصميم هذه المهمة لإنتاج قناع تقسيم بناءً على نص استفسار معقد ضمني. علاوة على ذلك، قمنا بإنشاء مقاييس مرجعية تتكون من أكثر من ألف عينة بيانات تحتوي على صورة وتعليمات وقناع، مع دمج الاستدلال المعقد والمعرفة العالمية للأغراض التقييمية. أخيرًا، نقدم LISA: مساعد التقسيم الذي يوجهه اللغة الكبيرة، والتي ترث قدرات إنشاء اللغة من النماذج اللغوية متعددة الوسائط الكبيرة (LLMs) بينما تتمتع أيضًا بقدرة إنتاج أقنعة التقسيم. لقد توسعنا في المفردات الأصلية بإضافة رمز واقترحنا نموذج التضمين كقناع لتفعيل قدرة التقسيم. بشكل ملفت للنظر، يمكن لـ LISA التعامل مع الحالات التي تتضمن استدلالًا معقدًا ومعرفة عالمية. كما أنها تظهر قدرة ثابتة على التعامل مع الحالات الجديدة عند التدريب حصريًا على مجموعات بيانات خالية من الاستدلال. بالإضافة إلى ذلك، يؤدي تعديل النموذج باستخدام 239 عينة بيانات فقط من التقسيم الاستدلالي إلى تعزيز الأداء بشكل أكبر. تظهر التجارب الكمية والنوعية أن طريقتنا فعالة في فتح قدرات التقسيم الاستدلالي الجديدة للنماذج اللغوية متعددة الوسائط الكبيرة (LLMs). الرمز البرمجي والنماذج والبيانات متاحة على https://github.com/dvlab-research/LISA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp