HyperAIHyperAI
منذ 2 أشهر

PACS: مجموعة بيانات للاستدلال الحسي السمعي البصري الفيزيائي

Samuel Yu; Peter Wu; Paul Pu Liang; Ruslan Salakhutdinov; Louis-Philippe Morency
PACS: مجموعة بيانات للاستدلال الحسي السمعي البصري الفيزيائي
الملخص

لضمان نشر الذكاء الاصطناعي بشكل آمن في السياقات الحقيقية مثل المستشفيات والمدارس والبيوت، يجب أن يكون قادرًا على الاستدلال بقوة عن العالم المادي. يعتبر الفهم الشائع للمادة من الأساسيات لهذا الاستدلال: فهم الخصائص المادية وقدرات التلاعب بالأشياء المتاحة وكيفية تفاعلها مع الأشياء الأخرى. يعد الاستدلال الشائع المادي مهمة متعددة الحواس بشكل جوهري، حيث تتجلى الخصائص المادية عبر عدة أوضاع - منها الرؤية والصوتيات. يقدم بحثنا خطوة نحو الاستدلال الشائع المادي في العالم الحقيقي من خلال إسهامه بـ PACS: أول معيار صوتي-بصري مُشَرَّح للخصائص الشائعة المادية. يحتوي PACS على 13,400 زوج سؤال-إجابة، يشمل 1,377 سؤالًا شائعًا ماديًا فريدًا و1,526 فيديو. يوفر مجموعة البيانات الخاصة بنا فرصًا جديدة لدفع حقل البحث في الاستدلال المادي إلى الأمام من خلال جلب الصوت كمكون أساسي لهذه المشكلة متعددة الوسائط. باستخدام PACS، نقيم عدة نماذج رائدة على مهمتنا الجديدة الصعبة. بينما تظهر بعض النماذج نتائج واعدة (70% دقة)، فإنها جميعًا تفتقر إلى الأداء البشري (95% دقة). نختتم البحث ببيان أهمية الاستدلال متعدد الوسائط وتوفير مسارات محتملة للبحث المستقبلي.

PACS: مجموعة بيانات للاستدلال الحسي السمعي البصري الفيزيائي | أحدث الأوراق البحثية | HyperAI