شيكرا: تحرير سحر الحوار الإشارة في نماذج LLM متعددة الوسائط

في المحادثات البشرية، يمكن للأفراد الإشارة إلى مناطق ذات صلة داخل مشهد معين أثناء التحدث إلى الآخرين، ويمكن للشخص الآخر أن يرد بدوره بالإشارة إلى مناطق محددة عند الحاجة. تبقى هذه القدرة الطبيعية على الإشارة في الحوار غائبة في النماذج الكبيرة متعددة الوسائط الحالية (MLLMs). ولسد هذه الفجوة، تقدم هذه الورقة نموذجًا مسمى Shikra، وهو نموذج متعدد الوسائط كبير (MLLM) قادر على معالجة المدخلات والمخرجات التي تتضمن إحداثيات مكانية ضمن صيغة لغوية طبيعية. يتكون بناؤه من معالج بصري (Vision Encoder)، وطبقة توحيد (Alignment Layer)، ونموذج لغوي كبير (LLM). تم تصميمه ليكون بسيطًا وواضحًا، دون الحاجة إلى قواميس إضافية، أو مشغلات موضعية (Position Encoder)، أو وحدات كشف مسبق أو لاحق، أو نماذج خارجية قابلة للإدخال. جميع المدخلات والمخرجات تكون بصيغة لغوية طبيعية. يُعد الحوار الإشاري مجموعة شاملة لمهام بصرية-لغوية (VL) مختلفة. ويستطيع Shikra التعامل بشكل طبيعي مع المهام المرتبطة بالموقع مثل REC وPointQA، فضلًا عن المهام التقليدية للغة والرؤية مثل وصف الصور (Image Captioning) وسؤال وجواب حول الصور (VQA). تُظهر النتائج التجريبية أداءً واعدًا لنموذج Shikra. علاوة على ذلك، يمكّن من تطبيقات مثيرة عديدة، مثل تقديم إحداثيات الكائنات المذكورة ضمن سلسلة التفكير (chains of thoughts)، ومقارنة تشابه المناطق التي يشير إليها المستخدم. يمكن الوصول إلى الكود، والنماذج، والبيانات عبر الرابط: https://github.com/shikras/shikra.