Command Palette
Search for a command to run...
MV-RAG: توليد متعدد المقاييس مدعوم بالاسترجاع
MV-RAG: توليد متعدد المقاييس مدعوم بالاسترجاع
Yosef Dayani Omer Benishu Sagie Benaim
الملخص
أصبحت تقنيات إنشاء النماذج ثلاثية الأبعاد من النصوص (Text-to-3D) متقدمة بشكل كبير بفضل الاستفادة من النماذج الأولية ثنائية الأبعاد القائمة على التشتت (diffusion priors)، حيث تمكنت من إنتاج نتائج عالية الجودة وموحدة من حيث الاتساق ثلاثي الأبعاد. ومع ذلك، فإنها غالبًا ما تفشل في إنتاج مفاهيم خارج النطاق (Out-of-Domain - OOD) أو النادرة، مما يؤدي إلى نتائج غير متسقة أو غير دقيقة. ولحل هذه المشكلة، نقترح MV-RAG، وهي طريقة جديدة لإنشاء النماذج ثلاثية الأبعاد من النصوص، تقوم أولاً باسترجاع صور ثنائية الأبعاد ذات صلة من قاعدة بيانات واسعة من الصور الثنائية الواقعية (in-the-wild)، ثم تُستخدم هذه الصور كشرط (conditioning) لنموذج التشتت متعدد الزوايا (multiview diffusion model) لاستخلاص صور متعددة الزوايا متسقة ودقيقة. وتم تحقيق تدريب هذا النموذج المشروط بالاسترجاع من خلال استراتيجية هجينة جديدة تربط بين البيانات المُنظمة متعددة الزوايا والجمعيات المتنوعة من الصور الثنائية. ويشمل هذا التدريب استخدام البيانات متعددة الزوايا مع صور مشروطة معدلة تُحاكي تباين الاسترجاع لتحسين إعادة بناء كل زاوية، بالإضافة إلى تدريب النموذج على مجموعات من الصور الثنائية الواقعية المسترجعة باستخدام هدف مميز لتنبؤ الصورة المُستبعدة (held-out view): حيث يتنبأ النموذج بالصورة المُستبعدة بناءً على باقي الصور، بهدف استخلاص الاتساق ثلاثي الأبعاد من البيانات الثنائية. ولتمكين تقييم صارم للنماذج في حالات OOD، نقدم مجموعة جديدة من المحفزات (prompts) الصعبة التي تمثل تحديات حقيقية. أظهرت التجارب المقارنة مع أحدث النماذج في مجال إنشاء النماذج ثلاثية الأبعاد من النصوص، وإنشاء النماذج ثلاثية الأبعاد من الصور، والتناسب الشخصي (personalization)، أن نهجنا يُحسّن بشكل ملحوظ من الاتساق ثلاثي الأبعاد، والواقعية البصرية، واتباع النصوص بالنسبة للمفاهيم OOD أو النادرة، مع الحفاظ على أداء تنافسي على المعايير القياسية.