منذ 4 أشهر

الملخص

إن الفهم والتكوين المتمحور حول الكاميرا يُعدان حجر الأساس في الذكاء المكاني، ومع ذلك تُدرس هاتان الجوانب عادةً بشكل منفصل. نقدّم نموذج "بوفين" (Puffin)، وهو نموذج متعدد الوسائط موحد متمحور حول الكاميرا، يمتد فيه الوعي المكاني عبر البُعد الكاميراتي. يدمج بوفين بين الانحدار اللغوي وتقنيات التوليد القائمة على التشتت (diffusion-based generation) لتحليل المشاهد وإنشائها من أي زاوية رؤية متاحة. ولسد الفجوة بين الوسائط المرتبطة بالكاميرات والوسائط البصرية-اللغوية، نقدّم نموذجًا جديدًا يُعامل الكاميرا كلغة، مما يمكّن النموذج من "التفكير مع الكاميرا". ويُوجّه هذا النموذج النموذج لمحاذاة المؤشرات البصرية المرتبطة بالموقع المكاني مع المصطلحات الفوتوغرافية أثناء التفكير في السياق الهندسي. تم تدريب بوفين على مجموعة بيانات ضخمة تُدعى "بوفين-4م" (Puffin-4M)، تتضمن 4 ملايين ثلاثية مكوّنة من صور، لغة، وكاميرات. ونُدمج فيها كل من معاملات الكاميرا العالمية وخرائط الكاميرا على مستوى البكسل، ما يُنتج توليدًا مكانيًا مرنًا وموثوقًا. تُظهر التجارب أداءً متفوّقًا لبوفين مقارنةً بالنماذج المتخصصة في فهم وتكوين المشاهد المتمحورة حول الكاميرا. وباستخدام التحسين حسب التعليمات (instruction tuning)، يُظهر بوفين قدرة على التعميم على مهام متعددة عبر الزوايا المختلفة، مثل التخيّل المكاني، واستكشاف العالم الافتراضي، وتوجيه التصوير الفوتوغرافي. وسنُطلق الكود البرمجي، والنماذج، وخط أنابيب مجموعة البيانات، والاختبارات المعيارية، لدعم تقدّم أبحاث الذكاء المكاني متعدد الوسائط.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التفكير بالكاميرا: نموذج متعدد الوسائط موحد للفهم والإنشاء المتمحور حول الكاميرا

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التفكير بالكاميرا: نموذج متعدد الوسائط موحد للفهم والإنشاء المتمحور حول الكاميرا

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التفكير بالكاميرا: نموذج متعدد الوسائط موحد للفهم والإنشاء المتمحور حول الكاميرا

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters