HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

النماذج المرئية هي متعلمون ومحسّنون صفرية المدى

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

النماذج المرئية هي متعلمون ومحسّنون صفرية المدى

الملخص

إن القدرات الاستثنائية للنماذج اللغوية الكبيرة (LLMs) في المهام غير المُدرَّسة (zero-shot) قد دفعت بمعالجة اللغة الطبيعية من نماذج مخصصة للمهام إلى نماذج أساسية موحدة وشاملة. وقد نشأ هذا التحول من بُنى بسيطة: نماذج توليدية ضخمة تم تدريبها على كميات هائلة من البيانات من الإنترنت. ومن المثير للاهتمام أن نفس البُنى البسيطة تنطبق على نماذج الفيديو التوليدية الحالية. هل يمكن أن تكون نماذج الفيديو على طريق التطور نحو فهم بصري شامل، تمامًا كما نمت نماذج LLMs لتُكوّن فهمًا لغويًا شاملاً؟ نُظهر أن نموذج Veo 3 قادر على حل مجموعة واسعة من المهام التي لم يُدرّس بشكل صريح عليها: مثل تقسيم الكائنات، وكشف الحواف، وتحرير الصور، وفهم الخصائص الفيزيائية، وتحديد إمكانات الكائنات، ومحاكاة استخدام الأدوات، وغيرها. تُمكّن هذه القدرات في الإدراك، والنماذج، والتفاعل مع العالم البصري من ظهور أشكال أولية للتفكير البصري، مثل حل الألغاز والتماثل. وتُشير القدرات الصادرة المُبكرة لنموذج Veo في المهام غير المُدرَّسة إلى أن نماذج الفيديو تسير على طريق التحوّل إلى نماذج أساسية بصرية موحدة وشاملة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
النماذج المرئية هي متعلمون ومحسّنون صفرية المدى | الأوراق البحثية | HyperAI