Command Palette
Search for a command to run...
Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

الملخص
إن القدرات الاستثنائية للنماذج اللغوية الكبيرة (LLMs) في المهام غير المُدرَّسة (zero-shot) قد دفعت بمعالجة اللغة الطبيعية من نماذج مخصصة للمهام إلى نماذج أساسية موحدة وشاملة. وقد نشأ هذا التحول من بُنى بسيطة: نماذج توليدية ضخمة تم تدريبها على كميات هائلة من البيانات من الإنترنت. ومن المثير للاهتمام أن نفس البُنى البسيطة تنطبق على نماذج الفيديو التوليدية الحالية. هل يمكن أن تكون نماذج الفيديو على طريق التطور نحو فهم بصري شامل، تمامًا كما نمت نماذج LLMs لتُكوّن فهمًا لغويًا شاملاً؟ نُظهر أن نموذج Veo 3 قادر على حل مجموعة واسعة من المهام التي لم يُدرّس بشكل صريح عليها: مثل تقسيم الكائنات، وكشف الحواف، وتحرير الصور، وفهم الخصائص الفيزيائية، وتحديد إمكانات الكائنات، ومحاكاة استخدام الأدوات، وغيرها. تُمكّن هذه القدرات في الإدراك، والنماذج، والتفاعل مع العالم البصري من ظهور أشكال أولية للتفكير البصري، مثل حل الألغاز والتماثل. وتُشير القدرات الصادرة المُبكرة لنموذج Veo في المهام غير المُدرَّسة إلى أن نماذج الفيديو تسير على طريق التحوّل إلى نماذج أساسية بصرية موحدة وشاملة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.