HyperAIHyperAI

Command Palette

Search for a command to run...

أغاني: تعزيز التوافق والفهم الدقيقين بين اللغة والرؤية من خلال كائنات بصرية واعية بالمعنى

Junyu Lu Dixiang Zhang Songxin Zhang Zejian Xie Zhuoyang Song Cong Lin Jiaxing Zhang Bingyi Jing Pingjian Zhang

الملخص

أظهرت نماذج الرؤية واللغة الكبيرة (LVLMs) قدرات مذهلة في المهام الصفرية في سيناريوهات الحوار بين الرؤية واللغة. ومع ذلك، فإن غياب الكشف الدقيق عن الكائنات البصرية يعيق نموذج الفهم التفاصيل الدقيقة للصور، مما يؤدي إلى تصورات بصرية لا يمكن إصلاحها وأخطاء واقعية. في هذه الورقة، نقترح "Lyrics"، نموذجًا جديدًا للتدريب المسبق متعدد الوسائط وتعديل التعليمات، والذي يعزز التوافق بين الرؤية واللغة من خلال التعاون المتقاطع الدقيق بين الوسائط. مبنيًا على أساس BLIP-2، يُدمج Lyrics ميزات بصرية محلية مستخرجة من معالج بصري يحتوي على وحدات التصنيف الصوتي، وكشف الكائنات، والتقسيم الدلالي للصورة، في مُحول الاستعلام (Querying Transformer)، في حين أن المدخلات اللغوية تُزوّد بحدود المربعات والمُعلّمات المستمدة من المعالج البصري. ونُدخل أيضًا خطة تدريب مكونة من مرحلتين، حيث تُسهم المرحلة الأولى للتدريب المسبق في سد الفجوة بين الوسائط من خلال أهداف تطابق بين الرؤية واللغة صريحة وشاملة. أما في مرحلة تعديل التعليمات، فإننا نُقدّم استخراج ميزات بصرية واعية بالمعنى، وهي طريقة حاسمة تمكن النموذج من استخراج ميزات مفيدة من الكائنات البصرية المحددة. تحقق طريقة العمل هذه أداءً قويًا على 13 مجموعة بيانات مختلفة ضمن مهام متعددة الوسائط بين الرؤية واللغة، وتُظهر قدرات واعدة في الفهم والتمييز والمحادثة متعددة الوسائط في 11 أداة تقييم مبنية على سيناريوهات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp