HyperAIHyperAI
منذ 2 أشهر

تعلم أساليب الإيماءات المحادثية الفردية

Shiry Ginosar; Amir Bar; Gefen Kohavi; Caroline Chan; Andrew Owens; Jitendra Malik
تعلم أساليب الإيماءات المحادثية الفردية
الملخص

غالبًا ما يرافق الكلام البشري حركات اليدين والذراعين. نظرًا للمدخل الصوتي للكلام، نولد حركات ممكنة تتناسب مع الصوت. بتحديد، نقوم بالترجمة بين الأوضاع المختلفة من الكلام المنفرد لشخص واحد في بيئات طبيعية إلى حركة يديه وذراعيه (cross-modal translation from "in-the-wild" monologue speech of a single speaker to their hand and arm motion). نتدرب على مقاطع الفيديو غير المصنفة، حيث لدينا فقط الحقيقة الزائفة الضوضائية من نظام كشف الوضع التلقائي (noisy pseudo ground truth from an automatic pose detection system). النموذج المقترح لدينا يتفوق بشكل كبير على الأساليب الأساسية في المقارنة الكمية. لدعم البحث الهادف إلى الحصول على فهم حاسوبي للعلاقة بين الحركة والكلام، نطلق مجموعة بيانات فيديو كبيرة خاصة بالأفراد. يمكن العثور على موقع المشروع الذي يحتوي على الفيديوهات والكود والبيانات في الرابط التالي: http://people.eecs.berkeley.edu/~shiry/speech2gesture .