HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

MV-RAG: توليد متعدد المقاييس مدعوم بالاسترجاع

Yosef Dayani Omer Benishu Sagie Benaim

MV-RAG: توليد متعدد المقاييس مدعوم بالاسترجاع

الملخص

أصبحت تقنيات إنشاء النماذج ثلاثية الأبعاد من النصوص (Text-to-3D) متقدمة بشكل كبير بفضل الاستفادة من النماذج الأولية ثنائية الأبعاد القائمة على التشتت (diffusion priors)، حيث تمكنت من إنتاج نتائج عالية الجودة وموحدة من حيث الاتساق ثلاثي الأبعاد. ومع ذلك، فإنها غالبًا ما تفشل في إنتاج مفاهيم خارج النطاق (Out-of-Domain - OOD) أو النادرة، مما يؤدي إلى نتائج غير متسقة أو غير دقيقة. ولحل هذه المشكلة، نقترح MV-RAG، وهي طريقة جديدة لإنشاء النماذج ثلاثية الأبعاد من النصوص، تقوم أولاً باسترجاع صور ثنائية الأبعاد ذات صلة من قاعدة بيانات واسعة من الصور الثنائية الواقعية (in-the-wild)، ثم تُستخدم هذه الصور كشرط (conditioning) لنموذج التشتت متعدد الزوايا (multiview diffusion model) لاستخلاص صور متعددة الزوايا متسقة ودقيقة. وتم تحقيق تدريب هذا النموذج المشروط بالاسترجاع من خلال استراتيجية هجينة جديدة تربط بين البيانات المُنظمة متعددة الزوايا والجمعيات المتنوعة من الصور الثنائية. ويشمل هذا التدريب استخدام البيانات متعددة الزوايا مع صور مشروطة معدلة تُحاكي تباين الاسترجاع لتحسين إعادة بناء كل زاوية، بالإضافة إلى تدريب النموذج على مجموعات من الصور الثنائية الواقعية المسترجعة باستخدام هدف مميز لتنبؤ الصورة المُستبعدة (held-out view): حيث يتنبأ النموذج بالصورة المُستبعدة بناءً على باقي الصور، بهدف استخلاص الاتساق ثلاثي الأبعاد من البيانات الثنائية. ولتمكين تقييم صارم للنماذج في حالات OOD، نقدم مجموعة جديدة من المحفزات (prompts) الصعبة التي تمثل تحديات حقيقية. أظهرت التجارب المقارنة مع أحدث النماذج في مجال إنشاء النماذج ثلاثية الأبعاد من النصوص، وإنشاء النماذج ثلاثية الأبعاد من الصور، والتناسب الشخصي (personalization)، أن نهجنا يُحسّن بشكل ملحوظ من الاتساق ثلاثي الأبعاد، والواقعية البصرية، واتباع النصوص بالنسبة للمفاهيم OOD أو النادرة، مع الحفاظ على أداء تنافسي على المعايير القياسية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp