Command Palette
Search for a command to run...
التفكير بالكاميرا: نموذج متعدد الوسائط موحد للفهم والإنشاء المتمحور حول الكاميرا
Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

الملخص
إن الفهم والتكوين المتمحور حول الكاميرا يُعدان حجر الأساس في الذكاء المكاني، ومع ذلك تُدرس هاتان الجوانب عادةً بشكل منفصل. نقدّم نموذج "بوفين" (Puffin)، وهو نموذج متعدد الوسائط موحد متمحور حول الكاميرا، يمتد فيه الوعي المكاني عبر البُعد الكاميراتي. يدمج بوفين بين الانحدار اللغوي وتقنيات التوليد القائمة على التشتت (diffusion-based generation) لتحليل المشاهد وإنشائها من أي زاوية رؤية متاحة. ولسد الفجوة بين الوسائط المرتبطة بالكاميرات والوسائط البصرية-اللغوية، نقدّم نموذجًا جديدًا يُعامل الكاميرا كلغة، مما يمكّن النموذج من "التفكير مع الكاميرا". ويُوجّه هذا النموذج النموذج لمحاذاة المؤشرات البصرية المرتبطة بالموقع المكاني مع المصطلحات الفوتوغرافية أثناء التفكير في السياق الهندسي. تم تدريب بوفين على مجموعة بيانات ضخمة تُدعى "بوفين-4م" (Puffin-4M)، تتضمن 4 ملايين ثلاثية مكوّنة من صور، لغة، وكاميرات. ونُدمج فيها كل من معاملات الكاميرا العالمية وخرائط الكاميرا على مستوى البكسل، ما يُنتج توليدًا مكانيًا مرنًا وموثوقًا. تُظهر التجارب أداءً متفوّقًا لبوفين مقارنةً بالنماذج المتخصصة في فهم وتكوين المشاهد المتمحورة حول الكاميرا. وباستخدام التحسين حسب التعليمات (instruction tuning)، يُظهر بوفين قدرة على التعميم على مهام متعددة عبر الزوايا المختلفة، مثل التخيّل المكاني، واستكشاف العالم الافتراضي، وتوجيه التصوير الفوتوغرافي. وسنُطلق الكود البرمجي، والنماذج، وخط أنابيب مجموعة البيانات، والاختبارات المعيارية، لدعم تقدّم أبحاث الذكاء المكاني متعدد الوسائط.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.