HyperAI
منذ 16 أيام

OST-Bench: تقييم قدرات النماذج اللغوية الكبيرة المتعددة في فهم المشاهد المكانية-الزمانية عبر الإنترنت

JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
OST-Bench: تقييم قدرات النماذج اللغوية الكبيرة المتعددة في فهم المشاهد المكانية-الزمانية عبر الإنترنت
الملخص

التطورات الحديثة في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) أظهرت قدرات ملحوظة في دمج الرؤية واللغة للمنطق المعقد. بينما تقيم معظم المقاييس الحالية النماذج في ظروف غير متصلة مع مجموعة ثابتة من المدخلات المسجلة مسبقًا، نقدم مقاييس OST-Bench، وهي مقاييس مصممة لتقييم الفهم الزماني-المكاني عبر الإنترنت من منظور وكيل يكتشف المشهد بنشاط. يركز الجانب عبر الإنترنت على الحاجة إلى معالجة المنطق على الملاحظات التي يتم الحصول عليها تدريجيًا، بينما يتطلب الجانب الزماني-المكاني دمج المدخلات البصرية الحالية بالذاكرة التاريخية لدعم المنطق المكاني الديناميكي. تعكس OST-Bench التحديات الحقيقية للاستشعار الجسدي في العالم الحقيقي بشكل أفضل. تم بناؤها على أساس خط أنابيب فعال لجمع البيانات، تتكون OST-Bench من 1.4 ألف مشهد و10 آلاف زوج سؤال وجواب تم جمعها من ScanNet ومatterport3D وARKitScenes. نقيم عدة نماذج رائدة MLLM على OST-Bench ونلاحظ أنها تفشل في المهام التي تتطلب المنطق الزماني-المكاني المعقد. تحت الظروف عبر الإنترنت، تنخفض دقتها مع زيادة أفق الاستكشاف ونمو الذاكرة. من خلال تحليل تجريبي إضافي، نحدد أنماط الأخطاء الشائعة بين النماذج ونجد أن طلبات المنطق المكاني القائم على العناصر الدلالية المعقدة والمتطلبات استرجاع الذاكرة طويلة الأمد تنخفض بشكل كبير في أداء النموذج على محورين منفصلين، مما يسلط الضوء على التحديات الأساسية التي يجب التعامل معها لتحسين المنطق الجسدي عبر الإنترنت. لتعزيز البحث والتطوير في هذا المجال، فإن كودنا ومجموعتنا من البيانات ومقاييسنا متاحة. صفحة مشروعنا هي: https://rbler1234.github.io/OSTBench.github.io/注释:- "Multimodal large language models" 翻译为 "نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)"。- "Online Spatio-Temporal understanding" 翻译为 "الفهم الزماني-المكاني عبر الإنترنت"。- "ScanNet, Matterport3D, and ARKitScenes" 直接保留原名,因为这些是特定的数据集名称。- "Embodied perception" 翻译为 "الاستشعار الجسدي"。- 其他术语和概念均按照通用的阿拉伯语科技翻译标准进行了处理。