Gear-NeRF: عرض من وجهات نظر متعددة وتتبع باستخدام عينة مكانيّة زمنيّة واعية بالحركة

تمديد حقول الإشعاع العصبي (NeRFs) لتمثيل المشاهد الديناميكية ساهم في تمكين عرض مناظر حرة بجودة قريبة من الواقعية الفوتوغرافية. وعلى الرغم من أن هذه الطرق أظهرت بعض الإمكانات في خلق تجارب غامرة، إلا أن هناك عيبين يحدان من انتشارها على نطاق واسع: (أ) انخفاض كبير في جودة إعادة البناء عند تقليل الميزانية الحاسوبية، و(ب) غياب الفهم الشكلي للمشاهد الكامنة وراءها. وللتغلب على هذه التحديات، نقدّم "Gear-NeRF"، الذي يستفيد من المعلومات الشكلية المستمدة من نماذج التصنيف الصوري القوية. ويقدّم نهجنا طريقة مبنية على أساس منطقي لتعلم تضمين شمولي-زمني (4D) شكلياً، وبناءً عليه نُقدّم مفهوم "الأسنان" (gears) لتمكين نمذجة طبقية للمناطق الديناميكية في المشهد استناداً إلى مدى حركتها. وتساهم هذه التمايزات في تعديل دقة أخذ العينات الشكلية-الزمنية لكل منطقة وفقاً لمقياس حركتها، مما يؤدي إلى تحقيق توليد مناظر جديدة ديناميكية أكثر واقعية. وفي الوقت نفسه، يتيح لنا النهج تقريباً دون تكلفة إضافية تتبع مناظر حرة للكائنات المهمة – وهي وظيفة لم تُحقَق بعد في الطرق القائمة على NeRF. وتدعم الدراسات التجريبية فعالية طريقة العمل، حيث نحقق أداءً متميزاً في إعادة التمثيل والتتبع على عدة مجموعات بيانات صعبة.