HyperAIHyperAI
منذ 17 أيام

أغاني: تعزيز التوافق والفهم الدقيقين بين اللغة والرؤية من خلال كائنات بصرية واعية بالمعنى

Junyu Lu, Dixiang Zhang, Songxin Zhang, Zejian Xie, Zhuoyang Song, Cong Lin, Jiaxing Zhang, Bingyi Jing, Pingjian Zhang
أغاني: تعزيز التوافق والفهم الدقيقين بين اللغة والرؤية من خلال كائنات بصرية واعية بالمعنى
الملخص

أظهرت نماذج الرؤية واللغة الكبيرة (LVLMs) قدرات مذهلة في المهام الصفرية في سيناريوهات الحوار بين الرؤية واللغة. ومع ذلك، فإن غياب الكشف الدقيق عن الكائنات البصرية يعيق نموذج الفهم التفاصيل الدقيقة للصور، مما يؤدي إلى تصورات بصرية لا يمكن إصلاحها وأخطاء واقعية. في هذه الورقة، نقترح "Lyrics"، نموذجًا جديدًا للتدريب المسبق متعدد الوسائط وتعديل التعليمات، والذي يعزز التوافق بين الرؤية واللغة من خلال التعاون المتقاطع الدقيق بين الوسائط. مبنيًا على أساس BLIP-2، يُدمج Lyrics ميزات بصرية محلية مستخرجة من معالج بصري يحتوي على وحدات التصنيف الصوتي، وكشف الكائنات، والتقسيم الدلالي للصورة، في مُحول الاستعلام (Querying Transformer)، في حين أن المدخلات اللغوية تُزوّد بحدود المربعات والمُعلّمات المستمدة من المعالج البصري. ونُدخل أيضًا خطة تدريب مكونة من مرحلتين، حيث تُسهم المرحلة الأولى للتدريب المسبق في سد الفجوة بين الوسائط من خلال أهداف تطابق بين الرؤية واللغة صريحة وشاملة. أما في مرحلة تعديل التعليمات، فإننا نُقدّم استخراج ميزات بصرية واعية بالمعنى، وهي طريقة حاسمة تمكن النموذج من استخراج ميزات مفيدة من الكائنات البصرية المحددة. تحقق طريقة العمل هذه أداءً قويًا على 13 مجموعة بيانات مختلفة ضمن مهام متعددة الوسائط بين الرؤية واللغة، وتُظهر قدرات واعدة في الفهم والتمييز والمحادثة متعددة الوسائط في 11 أداة تقييم مبنية على سيناريوهات.