HyperAIHyperAI
منذ 2 أشهر

LISA: تقسيم الاستدلال عبر نموذج اللغة الكبير

Xin Lai; Zhuotao Tian; Yukang Chen; Yanwei Li; Yuhui Yuan; Shu Liu; Jiaya Jia
LISA: تقسيم الاستدلال عبر نموذج اللغة الكبير
الملخص

رغم التقدم الملحوظ الذي أحرزته أنظمة الإدراك في السنوات الأخيرة، فإنها لا تزال تعتمد على التعليمات البشرية الصريحة أو الفئات المحددة مسبقًا لتحديد الأهداف قبل تنفيذ مهام التعرف البصري. هذه الأنظمة غير قادرة على الاستدلال النشط وفهم نوايا المستخدم الضمنية. في هذا البحث، نقترح مهمة جديدة للتقسيم -- التقسيم الاستدلالي. تم تصميم هذه المهمة لإنتاج قناع تقسيم بناءً على نص استفسار معقد ضمني. علاوة على ذلك، قمنا بإنشاء مقاييس مرجعية تتكون من أكثر من ألف عينة بيانات تحتوي على صورة وتعليمات وقناع، مع دمج الاستدلال المعقد والمعرفة العالمية للأغراض التقييمية. أخيرًا، نقدم LISA: مساعد التقسيم الذي يوجهه اللغة الكبيرة، والتي ترث قدرات إنشاء اللغة من النماذج اللغوية متعددة الوسائط الكبيرة (LLMs) بينما تتمتع أيضًا بقدرة إنتاج أقنعة التقسيم. لقد توسعنا في المفردات الأصلية بإضافة رمز <SEG> واقترحنا نموذج التضمين كقناع لتفعيل قدرة التقسيم. بشكل ملفت للنظر، يمكن لـ LISA التعامل مع الحالات التي تتضمن استدلالًا معقدًا ومعرفة عالمية. كما أنها تظهر قدرة ثابتة على التعامل مع الحالات الجديدة عند التدريب حصريًا على مجموعات بيانات خالية من الاستدلال. بالإضافة إلى ذلك، يؤدي تعديل النموذج باستخدام 239 عينة بيانات فقط من التقسيم الاستدلالي إلى تعزيز الأداء بشكل أكبر. تظهر التجارب الكمية والنوعية أن طريقتنا فعالة في فتح قدرات التقسيم الاستدلالي الجديدة للنماذج اللغوية متعددة الوسائط الكبيرة (LLMs). الرمز البرمجي والنماذج والبيانات متاحة على https://github.com/dvlab-research/LISA.

LISA: تقسيم الاستدلال عبر نموذج اللغة الكبير | أحدث الأوراق البحثية | HyperAI