HyperAIHyperAI

Command Palette

Search for a command to run...

عناصر قائمة واحدة تلو الأخرى: مصدر بيانات جديد ونمط تعلم لـ LLMs متعددة الوسائط

الملخص

يُطلق مُحفِّز Set-of-Mark (SoM) القدرة التأصيلية البصرية لنموذج GPT-4V، من خلال تمكين النموذج من ربط الكائنات البصرية بالعلامات المُضافة إلى الصورة. تُعد هذه العلامات، التي تُميَّز برموز ألفا-أرقامية، قابلة للتصنيف باستخدام رموز نصية لتسهيل الإشارة إليها. وعلى الرغم من الأداء المتميز الذي يُظهره GPT-4V، فإننا لاحظنا أن نماذج النماذج الكبيرة متعددة الوسائط (MLLMs) الأخرى تواجه صعوبة في فهم هذه العلامات البصرية. ولتعزيز تعلُّم مُحفِّز SoM في النماذج المفتوحة المصدر، نقترح نموذج تعلُّم جديدًا يُسمى "اذكر العناصر واحدًا تلو الآخر"، والذي يطلب من النموذج أن يُعدّ ويفصّل جميع العلامات البصرية المُضافة إلى الصورة وفق الترتيب الألفا-رقمي لها. وبدمج مجموعتنا المُختارة من البيانات مع مجموعات بيانات التدريب التوجيهية البصرية الأخرى، نتمكن من تمكين النماذج الحالية من MLLMs من القدرة على استخدام مُحفِّز SoM. علاوةً على ذلك، قمنا بتقييم نماذج SoM المُعدَّلة دقيقًا على خمسة معايير لـ MLLMs. ووجدنا أن هذه المجموعة الجديدة من البيانات، حتى مع حجمها النسبي الصغير (من 10 إلى 30 ألف صورة مُصحوبة بعلامات)، تُحسّن بشكل ملحوظ القدرة على الاستدلال البصري وتقلل من ظاهرة التصوّر الخاطئ (الهالوسينيشن) في نماذج MLLMs. وربما يكون مفاجئًا أن هذه التحسينات تظل قائمة حتى عند حذف العلامات البصرية من الصور أثناء عملية الاستدلال. ويُشير هذا إلى إمكانية توظيف نموذج "اذكر العناصر واحدًا تلو الآخر" كمنهاج جديد لتدريب نماذج MLLMs، حيث يُعزز التوافق بين الكائنات والنصوص من خلال استخدام العلامات البصرية أثناء مرحلة التدريب. وأخيرًا، أجرينا تحليلات استقصائية من خلال التحقيق في النماذج المدربة لفهم آلية عمل SoM. تتوفر الكود والبيانات الخاصة بنا على الرابط: https://github.com/zzxslp/SoM-LLaVA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
عناصر قائمة واحدة تلو الأخرى: مصدر بيانات جديد ونمط تعلم لـ LLMs متعددة الوسائط | مستندات | HyperAI