HyperAIHyperAI
منذ 17 أيام

DeepStack: التجميع العميق للرموز البصرية ببساطة مذهلة وفعالية كبيرة لـ LMMs

Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang
DeepStack: التجميع العميق للرموز البصرية ببساطة مذهلة وفعالية كبيرة لـ LMMs
الملخص

تُطبَّق معظم النماذج متعددة الوسائط الكبيرة (LMMs) من خلال إدخال الرموز البصرية كسلسلة إلى الطبقة الأولى من نموذج اللغة الكبير (LLM). ويُعدّ هذا الهيكل بسيطًا، لكنه يزيد بشكل كبير من تكاليف الحوسبة والذاكرة، نظرًا لضرورة التعامل مع عدد كبير من الرموز الإضافية في طبقة الإدخال. تقدّم هذه الورقة هيكلًا جديدًا يُسمّى DeepStack للنماذج متعددة الوسائط. وبافتراض وجود $N$ طبقات في نموذج اللغة والرؤية المتفرّع (Transformer) ضمن LMMs، نُرَتّب الرموز البصرية إلى $N$ مجموعات، ونُدخل كل مجموعة إلى طبقة Transformer المُتناظرة لها من الأسفل إلى الأعلى. ومن المفاجئ أن هذه الطريقة البسيطة تُعزّز بشكل كبير قدرة LMMs على نمذجة التفاعلات بين الرموز البصرية عبر الطبقات، وبتكلفة إضافية ضئيلة جدًا. نطبّق DeepStack على كل من نموذج اللغة والرؤية في LMMs، ونُثبت فعالية نماذج LMMs المبنية على DeepStack من خلال نتائج تجريبية واسعة النطاق. وباستخدام نفس طول السياق، تتفوّق نماذج DeepStack بحجم 7B و13B على نظيراتها بمتوسط \textbf{2.7} و\textbf{2.9} على التوالي عبر \textbf{9} معايير. وبالاعتماد على خُمس طول السياق فقط، تُنافس DeepStack نظيراتها التي تستخدم طول السياق الكامل بشكل وثيق. وتكون هذه المكاسب أكثر وضوحًا في المهام ذات الدقة العالية، مثل تحسينات قدرها \textbf{4.2} و\textbf{11.0} و\textbf{4.0} على المهام TextVQA وDocVQA وInfoVQA مقارنةً بنموذج LLaVA-1.5-7B، على التوالي. ونُطبّق DeepStack أيضًا على طبقات Transformer الخاصة بالرؤية، مما يُحقّق تحسينات مماثلة، بمتوسط \textbf{3.8} مقارنةً بنموذج LLaVA-1.5-7B.

DeepStack: التجميع العميق للرموز البصرية ببساطة مذهلة وفعالية كبيرة لـ LMMs | أحدث الأوراق البحثية | HyperAI