الخنزير الأرضي: ربط النماذج اللغوية الكبيرة بالتقسيم الشامل

معظم نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) تتعلم الترابط بين اللغة والكائنات من خلال النمذجة اللغوية السببية، حيث يتم التقاط الكائنات المرتبطة بصناديق تحديد كسلسلة من رموز الموقع. ومع ذلك، فإن هذا النموذج يفتقر إلى التمثيلات على مستوى البكسل التي تعتبر مهمة للفهم البصري الدقيق والتشخيص. في هذا البحث، نقدم GROUNDHOG، وهو نموذج LLM مطور من خلال ترابط النماذج اللغوية الكبيرة مع تقسيم الصور الشامل. يقوم GROUNDHOG بدمج مستخرج الميزات المقنع وتحويل الميزات المستخرجة إلى رموز كيانات بصرية للهيكل الأساسي للنموذج متعدد الوسائط، ثم يربط العبارات القابلة للتضمين بمasks ترابطي موحدة عن طريق استرجاع ودمج أقنعة الكيانات. لتدريب GROUNDHOG، قمنا بإعداد مجموعة تعليمية محددة بدقة تسمى M3G2، وهي مجموعة تعليمية لتوجيه التعليم البصري المترابط مع ترابط متعدد الوسائط ومتنوع الحبيبات، وذلك من خلال جمع مجموعة من مجموعات البيانات المترابطة بتقسيم تحتوي على شروح غنية. تظهر نتائجنا التجريبية أن GROUNDHOG يحقق أداءً أفضل في مختلف مهام الترابط اللغوي دون الحاجة إلى التعديل الدقيق الخاص بالمهمة، ويقلل بشكل كبير من هلوسة الأشياء. كما يوضح GROUNDHOG قدرته على الترابط بشكل أفضل مع أشكال معقدة من الإدخال البصري ويوفر تشخيصًا سهل الفهم في حالات الفشل.