HyperAIHyperAI
منذ 3 أيام

STream3R: إعادة بناء ثلاثية الأبعاد تسلسلية قابلة للتوسع باستخدام محول سببي

Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
STream3R: إعادة بناء ثلاثية الأبعاد تسلسلية قابلة للتوسع باستخدام محول سببي
الملخص

نقدّم STream3R، منهجية جديدة لإعادة بناء الأشكال ثلاثية الأبعاد، تعيد صياغة مسألة تنبؤ الخريطة النقطية (pointmap) كمشكلة تُحل باستخدام نموذج تحويلي (Transformer) يعتمد فقط على المُفكّك (decoder-only). تُعتمد الطرق الحالية المتطورة في إعادة البناء من منظور متعدد الأبعاد إما على عمليات تحسين عالمية باهظة التكلفة، أو تعتمد على آليات ذاكرة بسيطة لا تُ-scalable جيدًا مع طول التسلسل. على النقيض من ذلك، يقدّم STream3R إطارًا تدفقيًا (streaming framework) يُعالج تسلسلات الصور بكفاءة باستخدام الانتباه السببي (causal attention)، مستوحى من التطورات الحديثة في نماذج معالجة اللغة. وبفضل تعلّم السمات الهندسية الأولية (geometric priors) من مجموعات بيانات ثلاثية الأبعاد كبيرة الحجم، يتمتع STream3R بقدرة عامة عالية على تطبيقه في سيناريوهات متنوعة وصعبة، بما في ذلك المشاهد الديناميكية التي تفشل فيها الطرق التقليدية غالبًا. تُظهر التجارب الواسعة أن منهجنا يتفوق باستمرار على الطرق السابقة في معايير كل من المشاهد الثابتة والديناميكية. علاوةً على ذلك، فإن STream3R متوافق بشكل طبيعي مع البنية التحتية لتدريب النماذج اللغوية الكبيرة (LLM-style training infrastructure)، مما يمكّن من التدريب المسبق على نطاق واسع والضبط الدقيق بكفاءة لمهام ثلاثية الأبعاد متعددة في المهام اللاحقة. تُبرز نتائجنا الإمكانات الكبيرة للنماذج التحويلية السببية في التمييز ثلاثي الأبعاد المباشر (online 3D perception)، ممهّدة الطريق أمام الفهم ثلاثي الأبعاد في الوقت الفعلي في البيئات التدفقية. يمكن الاطلاع على المزيد من التفاصيل من خلال صفحة المشروع: https://nirvanalan.github.io/projects/stream3r.

STream3R: إعادة بناء ثلاثية الأبعاد تسلسلية قابلة للتوسع باستخدام محول سببي | أحدث الأوراق البحثية | HyperAI