HyperAIHyperAI

Command Palette

Search for a command to run...

M-FUSE: دمج الإطارات المتعددة لتقدير تدفق المشهد

Lukas Mehl Azin Jahedi Jenny Schmalfuss Andrés Bruhn

الملخص

في الآونة الأخيرة، أظهرت الشبكات العصبية لتقدير تدفق المشهد نتائج مبهرة على بيانات السيارات مثل معيار KITTI. ومع ذلك، وبالرغم من استخدام افتراضات معقدة حول الصلابة وتقنيات بارامترية متقدمة، فإن هذه الشبكات غالبًا ما تكون محدودة بزوج من الإطارات فقط، مما يمنعها من استغلال المعلومات الزمنية. وفي هذا البحث، نعالج هذه النقطة الضعيفة من خلال اقتراح منهجية جديدة متعددة الإطارات تأخذ بعين الاعتبار زوجًا ستيريوزيًا إضافيًا سابقًا. وننطلق في هذا السياق من خطوتين: أولاً، مستندين إلى المنهجية الحديثة RAFT-3D، نطور نموذجًا أساسيًا محسّنًا للإطارات الثنائية من خلال دمج طريقة ستيريو متقدمة. ثانيًا، والأهم من ذلك، وباستغلال المفاهيم الموديلية المميزة في RAFT-3D، نقترح معمارية U-Net تقوم بدمج تقديرات تدفق المشهد الأمامي والخلفي، مما يتيح دمج المعلومات الزمنية عند الحاجة. وقد أظهرت التجارب على معيار KITTI أن مزايا النموذج الأساسي المحسّن ومنهجية الدمج الزمني تكملان بعضهما البعض، كما تُظهر أن تدفق المشهد المحسوب دقيق جدًا. وبشكل أكثر دقة، يحتل منهجنا المرتبة الثانية إجمالاً، والمرتبة الأولى بالنسبة للكائنات الأمامية التي تمثل تحديًا أكبر، متفوقًا بشكل إجمالي على النموذج الأصلي RAFT-3D بنسبة تزيد عن 16٪. يمكن الاطلاع على الكود على الرابط: https://github.com/cv-stuttgart/M-FUSE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
M-FUSE: دمج الإطارات المتعددة لتقدير تدفق المشهد | مستندات | HyperAI