Lexicon3D: التحقيق في النماذج الأساسية البصرية لفهم المشاهد ثلاثية الأبعاد المعقدة

أصبح فهم المشاهد ثلاثية الأبعاد المعقدة موضوعًا يحظى باهتمام متزايد، حيث تلعب استراتيجيات ترميز المشهد دورًا محوريًا في هذا النجاح. ومع ذلك، تظل استراتيجيات ترميز المشهد المثلى لسيناريوهات متنوعة غير واضحة، خاصة بالمقارنة مع نماذجها القائمة على الصور. ولحل هذه المشكلة، نقدم دراسة شاملة تُجري تحليلًا معمقًا لمجموعة متنوعة من نماذج الترميز البصري لفهم المشاهد ثلاثية الأبعاد، وتكشف عن نقاط القوة والقيود الخاصة بكل نموذج في سياقات مختلفة. تم تقييم هذه النماذج عبر سبع نماذج أساسية للرؤية، تشمل نماذج قائمة على الصور، ونماذج قائمة على الفيديو، ونماذج ثلاثية الأبعاد أساسية. وقد تم تقييم هذه النماذج في أربع مهام: الاستدلال السياقي البصري-اللغوي، والربط البصري، والتقسيم، والمحاذاة، حيث تركز كل مهمة على جانب مختلف من جوانب فهم المشهد. أفضت نتائج تقييمنا إلى استنتاجات رئيسية: تُظهر DINOv2 أداءً متفوقًا، وتُظهر النماذج القائمة على الفيديو تفوقًا في المهام ذات المستوى الكائن، وتنال النماذج التفريعية (diffusion models) مزايا في المهام الهندسية، بينما تُظهر النماذج المُدرّبة مسبقًا على اللغة قيودًا غير متوقعة في المهام المتعلقة باللغة. تُشكّل هذه الرؤى تحديًا لفهم بعض المفاهيم التقليدية، وتقدّم منظورًا جديدًا لاستغلال النماذج الأساسية البصرية، كما تُبرز الحاجة إلى اختيار أكثر مرونة للنماذج الأساسية في المهام المستقبلية المتعلقة بالرؤية واللغة وفهم المشهد. الكود: https://github.com/YunzeMan/Lexicon3D