منذ 11 أيام

عناصر قائمة واحدة تلو الأخرى: مصدر بيانات جديد ونمط تعلم لـ LLMs متعددة الوسائط

An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang

عرض تفاصيل الورقة البحثية

عناصر قائمة واحدة تلو الأخرى: مصدر بيانات جديد ونمط تعلم لـ LLMs متعددة الوسائط

الملخص

يُطلق مُحفِّز Set-of-Mark (SoM) القدرة التأصيلية البصرية لنموذج GPT-4V، من خلال تمكين النموذج من ربط الكائنات البصرية بالعلامات المُضافة إلى الصورة. تُعد هذه العلامات، التي تُميَّز برموز ألفا-أرقامية، قابلة للتصنيف باستخدام رموز نصية لتسهيل الإشارة إليها. وعلى الرغم من الأداء المتميز الذي يُظهره GPT-4V، فإننا لاحظنا أن نماذج النماذج الكبيرة متعددة الوسائط (MLLMs) الأخرى تواجه صعوبة في فهم هذه العلامات البصرية. ولتعزيز تعلُّم مُحفِّز SoM في النماذج المفتوحة المصدر، نقترح نموذج تعلُّم جديدًا يُسمى "اذكر العناصر واحدًا تلو الآخر"، والذي يطلب من النموذج أن يُعدّ ويفصّل جميع العلامات البصرية المُضافة إلى الصورة وفق الترتيب الألفا-رقمي لها. وبدمج مجموعتنا المُختارة من البيانات مع مجموعات بيانات التدريب التوجيهية البصرية الأخرى، نتمكن من تمكين النماذج الحالية من MLLMs من القدرة على استخدام مُحفِّز SoM. علاوةً على ذلك، قمنا بتقييم نماذج SoM المُعدَّلة دقيقًا على خمسة معايير لـ MLLMs. ووجدنا أن هذه المجموعة الجديدة من البيانات، حتى مع حجمها النسبي الصغير (من 10 إلى 30 ألف صورة مُصحوبة بعلامات)، تُحسّن بشكل ملحوظ القدرة على الاستدلال البصري وتقلل من ظاهرة التصوّر الخاطئ (الهالوسينيشن) في نماذج MLLMs. وربما يكون مفاجئًا أن هذه التحسينات تظل قائمة حتى عند حذف العلامات البصرية من الصور أثناء عملية الاستدلال. ويُشير هذا إلى إمكانية توظيف نموذج "اذكر العناصر واحدًا تلو الآخر" كمنهاج جديد لتدريب نماذج MLLMs، حيث يُعزز التوافق بين الكائنات والنصوص من خلال استخدام العلامات البصرية أثناء مرحلة التدريب. وأخيرًا، أجرينا تحليلات استقصائية من خلال التحقيق في النماذج المدربة لفهم آلية عمل SoM. تتوفر الكود والبيانات الخاصة بنا على الرابط: https://github.com/zzxslp/SoM-LLaVA.