SAM4D: تقسيم أي شيء في تدفقات الكاميرا وليدار

نقدم نموذج SAM4D، وهو نموذج أساسي متعدد الوسائط وزماني مصمم للتقسيم الموجه عبر تدفقات الكاميرا والليدار. تم تقديم الترميز الموضعي المتعدد الوسائط الموحد (UMPE) لتوحيد خصائص الكاميرا والليدار في فضاء ثلاثي الأبعاد مشترك، مما يتيح التفاعل والتوجيه السلس بين الوسائط. بالإضافة إلى ذلك، اقترحنا آلية الانتباه الذاكرة العابرة للوسائط التي تدرك الحركة (MCMA)، والتي تستفيد من تعويض الحركة الذاتية لتعزيز الاستمرارية الزمنية واسترجاع الخصائص على المدى الطويل، مما يضمن تقسيمًا قويًا عبر مشاهد القيادة الذاتية المتغيرة ديناميكيًا.为了避免注释瓶颈,我们开发了一个多模态自动化数据引擎,该引擎结合了由VFM驱动的视频掩码片段、时空4D重建和跨模态掩码片段融合。这一框架以比人工注释快几个数量级的速度生成对齐的相机-激光雷达伪标签,同时在点云表示中保留由VFM派生的语义保真度。我们在构建的Waymo-4DSeg上进行了广泛的实验,这些实验展示了所提出的SAM4D的强大跨模态分割能力和在数据注释中的巨大潜力。为了确保翻译符合阿拉伯语的习惯,以下是经过调整后的版本:لتجنب عقبات التسمية، طورنا محرك بيانات آلي متعدد الوسائط يجمع بين مقاطع الأقنعة المرئية التي تُدفع بواسطة VFM (فيديو فايمينج موديل) والبناء الزماني المكاني 4D وإندماج مقاطع الأقنعة العابرة للوسائط. يقوم هذا الإطار بتكوين علامات كاذبة مُحاذاة للكاميرا والليدار بمعدل أسرع بكثير من التسمية البشرية مع الحفاظ على الدقة الدلالية المستخرجة من VFM في تمثيل السحابة النقطية. أجرينا تجارب واسعة النطاق على Waymo-4DSeg الذي تم بناؤه، مما أظهر قدرة التقسيم العابر للوسائط القوية والمقدرات الهائلة في تسمية البيانات للنموذج المقترح SAM4D.