HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

من البكسلات إلى الكلمات — نحو أولية الرؤية واللغة الأصلية على نطاق واسع

Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

من البكسلات إلى الكلمات — نحو أولية الرؤية واللغة الأصلية على نطاق واسع

الملخص

أصبحت الموديلات الرؤية-اللغة الأصلية (VLMs) نموذجًا واعدًا يتصدر الساحة في مواجهة الموديلات التقليدية المُقسَّمة، بفضل التطور المستمر في هياكل النماذج ونهج التدريب. ومع ذلك، تظل هناك سحابتان متعثرة تُظللان الاستكشاف والتوسع الواسع في هذا المجال: (1) ما هي القيود الجوهرية التي تميّز الموديلات الأصلية عن الموديلات المُقسَّمة، وهل يمكن تجاوز هذه العوائق إلى أي مدى؟ (2) كيف يمكن جعل الأبحاث المتعلقة بالموديلات الأصلية أكثر إمكانية وشمولية، لتسريع التقدم في هذا المجال؟ في هذا البحث، نوضح هذه التحديات ونُعرّف المبادئ التوجيهية لبناء الموديلات الأصلية. وبشكل خاص، يجب أن يمتلك كل مكوّن أساسي في الموديل الأصلي ما يلي: (أ) تحقيق تطابق فعّال بين تمثيلات البكسل والكلمات ضمن فضاء معنوي مشترك؛ (ب) دمج سمات الرؤية واللغة السابقة التي كانت منفصلة بشكل سلس؛ (ج) احتواء خصائص متعددة بين الوسائط تدعم الترميز الموحّد، والتطابق، والاستدلال في الرؤية واللغة. لذلك، نقدّم "نيو" (NEO)، عائلة جديدة من الموديلات الأصلية، مبنية على المبادئ الأولى، قادرة على منافسة أرقى النماذج المُقسَّمة في سيناريوهات واقعية متنوعة. وباستخدام 390 مليون مثال مكوّن من صور ونصوص فقط، تُطوّر نيو القدرة على التمييز البصري من الصفر، مع تقليل التناقضات بين الرؤية واللغة داخل نموذج كثيف ومتسلسل مُصمم بدقة من خلال مكوّناتنا الأساسية. نُصنّف نيو كأساس لبناء موديلات أصلية قابلة للتوسع وقوية، مصحوبة بمجموعة غنية من المكونات القابلة لإعادة الاستخدام، مما يُعزز بناء نظام بيئي فعّال من حيث التكلفة وقابل للتوسيع. يُمكن الوصول إلى الكود والنماذج الخاصة بنا بشكل عام من خلال: https://github.com/EvolvingLMMs-Lab/NEO.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
من البكسلات إلى الكلمات — نحو أولية الرؤية واللغة الأصلية على نطاق واسع | الأوراق البحثية | HyperAI