HyperAIHyperAI

Command Palette

Search for a command to run...

الخنزير الأرضي: ربط النماذج اللغوية الكبيرة بالتقسيم الشامل

Zhiyue Zhang Yuxuan Chen Yuhang Jiang Jianwei Yang Xiaowei Li

الملخص

معظم نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) تتعلم الترابط بين اللغة والكائنات من خلال النمذجة اللغوية السببية، حيث يتم التقاط الكائنات المرتبطة بصناديق تحديد كسلسلة من رموز الموقع. ومع ذلك، فإن هذا النموذج يفتقر إلى التمثيلات على مستوى البكسل التي تعتبر مهمة للفهم البصري الدقيق والتشخيص. في هذا البحث، نقدم GROUNDHOG، وهو نموذج LLM مطور من خلال ترابط النماذج اللغوية الكبيرة مع تقسيم الصور الشامل. يقوم GROUNDHOG بدمج مستخرج الميزات المقنع وتحويل الميزات المستخرجة إلى رموز كيانات بصرية للهيكل الأساسي للنموذج متعدد الوسائط، ثم يربط العبارات القابلة للتضمين بمasks ترابطي موحدة عن طريق استرجاع ودمج أقنعة الكيانات. لتدريب GROUNDHOG، قمنا بإعداد مجموعة تعليمية محددة بدقة تسمى M3G2، وهي مجموعة تعليمية لتوجيه التعليم البصري المترابط مع ترابط متعدد الوسائط ومتنوع الحبيبات، وذلك من خلال جمع مجموعة من مجموعات البيانات المترابطة بتقسيم تحتوي على شروح غنية. تظهر نتائجنا التجريبية أن GROUNDHOG يحقق أداءً أفضل في مختلف مهام الترابط اللغوي دون الحاجة إلى التعديل الدقيق الخاص بالمهمة، ويقلل بشكل كبير من هلوسة الأشياء. كما يوضح GROUNDHOG قدرته على الترابط بشكل أفضل مع أشكال معقدة من الإدخال البصري ويوفر تشخيصًا سهل الفهم في حالات الفشل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp