M-FUSE: دمج الإطارات المتعددة لتقدير تدفق المشهد

في الآونة الأخيرة، أظهرت الشبكات العصبية لتقدير تدفق المشهد نتائج مبهرة على بيانات السيارات مثل معيار KITTI. ومع ذلك، وبالرغم من استخدام افتراضات معقدة حول الصلابة وتقنيات بارامترية متقدمة، فإن هذه الشبكات غالبًا ما تكون محدودة بزوج من الإطارات فقط، مما يمنعها من استغلال المعلومات الزمنية. وفي هذا البحث، نعالج هذه النقطة الضعيفة من خلال اقتراح منهجية جديدة متعددة الإطارات تأخذ بعين الاعتبار زوجًا ستيريوزيًا إضافيًا سابقًا. وننطلق في هذا السياق من خطوتين: أولاً، مستندين إلى المنهجية الحديثة RAFT-3D، نطور نموذجًا أساسيًا محسّنًا للإطارات الثنائية من خلال دمج طريقة ستيريو متقدمة. ثانيًا، والأهم من ذلك، وباستغلال المفاهيم الموديلية المميزة في RAFT-3D، نقترح معمارية U-Net تقوم بدمج تقديرات تدفق المشهد الأمامي والخلفي، مما يتيح دمج المعلومات الزمنية عند الحاجة. وقد أظهرت التجارب على معيار KITTI أن مزايا النموذج الأساسي المحسّن ومنهجية الدمج الزمني تكملان بعضهما البعض، كما تُظهر أن تدفق المشهد المحسوب دقيق جدًا. وبشكل أكثر دقة، يحتل منهجنا المرتبة الثانية إجمالاً، والمرتبة الأولى بالنسبة للكائنات الأمامية التي تمثل تحديًا أكبر، متفوقًا بشكل إجمالي على النموذج الأصلي RAFT-3D بنسبة تزيد عن 16٪. يمكن الاطلاع على الكود على الرابط: https://github.com/cv-stuttgart/M-FUSE.