HyperAIHyperAI
منذ 3 أشهر

UniTR: نموذج متعدد الوسائط موحد وفعال من نوع Transformer لتمثيل منظور الطيور

Haiyang Wang, Hao Tang, Shaoshuai Shi, Aoxue Li, Zhenguo Li, Bernt Schiele, Liwei Wang
UniTR: نموذج متعدد الوسائط موحد وفعال من نوع Transformer لتمثيل منظور الطيور
الملخص

يُعدّ معالجة المعلومات المشتركة من عدة مستشعرات أمرًا حاسمًا لتحقيق إدراك دقيق وموثوق لأنظمة القيادة الذاتية الموثوقة. ومع ذلك، تتبع الأبحاث الحالية في الإدراك ثلاثي الأبعاد نموذجًا مخصصًا لكل وسيلة (موداليتي)، مما يؤدي إلى عبء حسابي إضافي وتعاون غير فعّال بين بيانات المستشعرات المختلفة. في هذه الورقة، نقدّم هيكلًا أساسيًا فعّالًا متعدد الوسائط للإدراك ثلاثي الأبعاد في البيئات الخارجية يُسمّى UniTR، والذي يعالج مجموعة متنوعة من الوسائط باستخدام نموذج موحد ومعاملات مشتركة. على عكس الدراسات السابقة، يقدّم UniTR معالجًا للترانسفورمر غير مرتبط بالوسيلة (modality-agnostic transformer encoder) لمعالجة بيانات المستشعرات التي تختلف في الزوايا، مما يسمح بتعلم تمثيلات متوازية حسب الوسيلة، وتفاعل تلقائي بين الوسائط دون الحاجة إلى خطوات إضافية للدمج. والأهم من ذلك، لاستغلال الاستخدام الكامل لهذه المستشعرات المكملة، نقدّم استراتيجية جديدة للدمج متعدد الوسائط من خلال أخذ بعين الاعتبار كل من الرؤية ثنائية الأبعاد الغنية بالمعاني والعلاقات الجغرافية ثلاثية الأبعاد النادرة. كما أن UniTR هو هيكل أساسي مُجرّد من المهام (task-agnostic)، ويُدعم بشكل طبيعي مهام الإدراك ثلاثي الأبعاد المختلفة. ويحقق UniTR أداءً جديدًا في مستوى الحد الأقصى على معيار nuScenes، حيث يحقق زيادة قدرها +1.1 في مؤشر NDS للكشف عن الكائنات ثلاثية الأبعاد، و+12.0 في متوسط مقياس IoU لتقسيم الخريطة في مستوى الرؤية الأفقية (BEV)، مع تقليل زمن الاستدلال. سيتم إتاحة الكود على الرابط: https://github.com/Haiyang-W/UniTR.