تعلم أساليب الإيماءات المحادثية الفردية

غالبًا ما يرافق الكلام البشري حركات اليدين والذراعين. نظرًا للمدخل الصوتي للكلام، نولد حركات ممكنة تتناسب مع الصوت. بتحديد، نقوم بالترجمة بين الأوضاع المختلفة من الكلام المنفرد لشخص واحد في بيئات طبيعية إلى حركة يديه وذراعيه (cross-modal translation from "in-the-wild" monologue speech of a single speaker to their hand and arm motion). نتدرب على مقاطع الفيديو غير المصنفة، حيث لدينا فقط الحقيقة الزائفة الضوضائية من نظام كشف الوضع التلقائي (noisy pseudo ground truth from an automatic pose detection system). النموذج المقترح لدينا يتفوق بشكل كبير على الأساليب الأساسية في المقارنة الكمية. لدعم البحث الهادف إلى الحصول على فهم حاسوبي للعلاقة بين الحركة والكلام، نطلق مجموعة بيانات فيديو كبيرة خاصة بالأفراد. يمكن العثور على موقع المشروع الذي يحتوي على الفيديوهات والكود والبيانات في الرابط التالي: http://people.eecs.berkeley.edu/~shiry/speech2gesture .