HyperAIHyperAI
منذ 2 أشهر

تصنيف الأنشطة اليومية التفاعلية بقليل من العينات (InteractADL)

Durante, Zane ; Harries, Robathan ; Vendrow, Edward ; Luo, Zelun ; Kyuragi, Yuta ; Kozuka, Kazuki ; Fei-Fei, Li ; Adeli, Ehsan
تصنيف الأنشطة اليومية التفاعلية بقليل من العينات (InteractADL)
الملخص

فهم أنشطة الحياة اليومية (ADLs) هو خطوة حاسمة لتطبيقات مختلفة، بما في ذلك الروبوتات المساعدة، والمنازل الذكية، والعناية الصحية. ومع ذلك، حتى الآن، ركزت القليل من المعايير والطرق على أنشطة الحياة اليومية المعقدة، خاصة تلك التي تتضمن تفاعلات متعددة الأشخاص في بيئات المنزل. في هذا البحث، نقترح مجموعة بيانات ومعيارًا جديدًا يُسمى InteractADL لفهم أنشطة الحياة اليومية المعقدة التي تتضمن التفاعل بين البشر (والأجسام). بالإضافة إلى ذلك، فإن أنشطة الحياة اليومية المعقدة التي تحدث في بيئات المنزل تشكل توزيعًا ذيله طويل بسبب ندرة التفاعلات المتعددة الأشخاص، وتطرح مهام تصنيف بصرية دقيقة للغاية بسبب وجود فئات مشابهة معنويًا وبصريًا. للتعامل مع هذه القضايا، نقترح طريقة جديدة للتصنيف الفيديوي الدقيق بنماذج قليلة الإشراف تُعرف باسم تعديل الاسم (Name Tuning)، والتي تتيح الفصل الدلالي الأفضل عن طريق تعلم متجهات اسم الفئة الأمثل. نوضح أن يمكن دمج تعديل الاسم مع استراتيجيات التعديل المحفزة الموجودة لتعلم النص الإدخالي بأكمله (بدلاً من تعلم المحفز أو اسم الفئة فقط) ونظهر أداءً محسنًا للتصنيف بنماذج قليلة الإشراف على InteractADL وأربع معايير أخرى للتصنيف البصري الدقيق. لأجل الشفافية وإمكانية إعادة الإنتاج، نوفر شفرتنا المصدرية في https://github.com/zanedurante/vlm_benchmark.