EgoThink: مجموعة بيانات مرجعية للإجابة على الأسئلة المرئية من منظور الشخص الأول
التاريخ
الحجم
رابط النشر
العلامات

EgoThink هي مجموعة بيانات مرجعية للإجابة على الأسئلة المرئية من منظور الشخص الأول اقترحتها جامعة تسينغهوا.تحتوي مجموعة البيانات على 700 صورة تغطي 6 قدرات أساسية مقسمة إلى 12 بُعدًا. تأتي صور EgoThink من الصور المأخوذة من مجموعة بيانات الفيديو الخاصة بشخصية Ego4D. ولضمان تنوع البيانات، يتم أخذ عينات من صورتين فقط لكل مقطع فيديو على الأكثر.
أثناء عملية إنشاء مجموعة البيانات، تم اختيار الصور عالية الجودة فقط والتي يمكنها إظهار تفكير منظور الشخص الأول بوضوح. يتم شرح مجموعة البيانات يدويًا وتحتوي على ما لا يقل عن 50 سؤالًا مفصلاً مع شرح للإجابة عليها في كل بُعد. وتأتي هذه الأسئلة من مشاهد حقيقية من وجهات نظر متعددة للشخص الأول. تتمتع EgoThink بمجموعة واسعة من التطبيقات، وخاصة في تقييم وتحسين أداء VLMs في مهام منظور الشخص الأول، مما يوفر موردًا قيمًا لأبحاث الذكاء الاصطناعي والروبوتات المتجسدة في المستقبل.