HyperAIHyperAI

Command Palette

Search for a command to run...

DeepStack: التجميع العميق للرموز البصرية ببساطة مذهلة وفعالية كبيرة لـ LMMs

Lingchen Meng Jianwei Yang Rui Tian Xiyang Dai Zuxuan Wu Jianfeng Gao Yu-Gang Jiang

الملخص

تُطبَّق معظم النماذج متعددة الوسائط الكبيرة (LMMs) من خلال إدخال الرموز البصرية كسلسلة إلى الطبقة الأولى من نموذج اللغة الكبير (LLM). ويُعدّ هذا الهيكل بسيطًا، لكنه يزيد بشكل كبير من تكاليف الحوسبة والذاكرة، نظرًا لضرورة التعامل مع عدد كبير من الرموز الإضافية في طبقة الإدخال. تقدّم هذه الورقة هيكلًا جديدًا يُسمّى DeepStack للنماذج متعددة الوسائط. وبافتراض وجود NNN طبقات في نموذج اللغة والرؤية المتفرّع (Transformer) ضمن LMMs، نُرَتّب الرموز البصرية إلى NNN مجموعات، ونُدخل كل مجموعة إلى طبقة Transformer المُتناظرة لها من الأسفل إلى الأعلى. ومن المفاجئ أن هذه الطريقة البسيطة تُعزّز بشكل كبير قدرة LMMs على نمذجة التفاعلات بين الرموز البصرية عبر الطبقات، وبتكلفة إضافية ضئيلة جدًا. نطبّق DeepStack على كل من نموذج اللغة والرؤية في LMMs، ونُثبت فعالية نماذج LMMs المبنية على DeepStack من خلال نتائج تجريبية واسعة النطاق. وباستخدام نفس طول السياق، تتفوّق نماذج DeepStack بحجم 7B و13B على نظيراتها بمتوسط \textbf{2.7} و\textbf{2.9} على التوالي عبر \textbf{9} معايير. وبالاعتماد على خُمس طول السياق فقط، تُنافس DeepStack نظيراتها التي تستخدم طول السياق الكامل بشكل وثيق. وتكون هذه المكاسب أكثر وضوحًا في المهام ذات الدقة العالية، مثل تحسينات قدرها \textbf{4.2} و\textbf{11.0} و\textbf{4.0} على المهام TextVQA وDocVQA وInfoVQA مقارنةً بنموذج LLaVA-1.5-7B، على التوالي. ونُطبّق DeepStack أيضًا على طبقات Transformer الخاصة بالرؤية، مما يُحقّق تحسينات مماثلة، بمتوسط \textbf{3.8} مقارنةً بنموذج LLaVA-1.5-7B.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp