HyperAIHyperAI
منذ 16 أيام

UniK3D: التقدير الثلاثي الأبعاد الفردي للكاميرا من صورة واحدة

Luigi Piccinelli, Christos Sakaridis, Mattia Segu, Yung-Hsu Yang, Siyuan Li, Wim Abbeloos, Luc Van Gool
UniK3D: التقدير الثلاثي الأبعاد الفردي للكاميرا من صورة واحدة
الملخص

يُعد التقدير الثلاثي الأبعاد من منظور واحد أمرًا بالغ الأهمية للإدراك البصري. ومع ذلك، فإن الطرق الحالية تفتقر إلى الكفاءة بسبب الاعتماد على افتراضات مبسطة جدًا، مثل نماذج العدسة المثالية (العدسة الثقبية) أو الصور المُستقيمة. تؤدي هذه القيود إلى تقييد كبير في قابلية التعميم، مما يسبب أداءً ضعيفًا في السياقات الواقعية التي تتضمن صورًا دوارة (فيسهاي) أو صورًا مدارية (بانورامية)، ويؤدي إلى فقدان كبير للسياق. لمعالجة هذه المشكلة، نقدّم UniK3D، وهي أول طريقة قابلة للتوسع للتقييم الثلاثي الأبعاد من منظور واحد، قادرة على نمذجة أي كاميرا. تعتمد طريقتنا على تمثيل ثلاثي الأبعاد كروي، مما يُمكّن من فصل أفضل بين هندسة الكاميرا وهندسة المشهد، ويتيح إعادة بناء ثلاثية الأبعاد دقيقة قياسية لنموذج كاميرا غير مقيد. ويتميز مكون الكاميرا لدينا بتمثيل جديد ومستقل عن النموذج لشُعاع الأشعة (Pencil of Rays)، الذي يتم تحقيقه من خلال تراكب مُتعلم للدوال التوافقية الكروية (Spherical Harmonics). كما نقدّم أيضًا خسارة زاوية (Angular Loss)، والتي، بالاقتران مع تصميم وحدة الكاميرا، تمنع انكماش النواتج الثلاثية الأبعاد في حال الكاميرات ذات المجال الواسع. أظهر تقييم صفر-بُعد (Zero-shot) شامل على 13 مجموعة بيانات متنوعة أداءً رائدًا في مجال UniK3D من حيث المقاييس الثلاثية الأبعاد، ومقاييس العمق، ومقاييس الكاميرا، مع مكاسب كبيرة في البيئات الصعبة ذات المجال البصري الكبير والصور المدارية، مع الحفاظ على أعلى دقة في المجالات التقليدية التي تعتمد على كاميرات عدسة ثقبية ذات مجال بصري صغير. يمكن الوصول إلى الكود والنماذج عبر: github.com/lpiccinelli-eth/unik3d.