AQ-GT: نموذج GRU-Transformer مُتَوَازِن زمنيًا ومُقَيَّد كميًا لتخليق الحركات الصوتية المشتركة

إن إنتاج إيماءات مصحوبة بالكلام واقعية ومرتبطة بالسياق يُعد مهمةً صعبةً ولكنها تزداد أهميةً في إنشاء الوكالات الاصطناعية متعددة الوسائط. ركزت الطرق السابقة على تعلم علاقة مباشرة بين تمثيلات الإيماءات المصاحبة للكلام وحركات الجسم الناتجة، مما أدى إلى إنتاج إيماءات تبدو طبيعية ولكنها غالبًا ما تكون غير مقنعة عند تقييمها من قبل البشر. نقدم منهجًا لتدريب مسبق لسلسلة جزئية من الإيماءات باستخدام شبكة عصبية مُنتجة مُعاكسة (GAN) مع خط أنابيب كمّي (quantization pipeline). تُستخدم المتجهات الناتجة من مكتبة الرموز (codebook vectors) كمدخلات ونتائج في إطارنا، مما يُشكّل الأساس لتكوين وإعادة بناء الإيماءات. من خلال تعلّم خريطة تمثيل فضاء خفي (latent space) بدلًا من التمثيل المباشر كمتجه، يُمكن لهذا الإطار توليد إيماءات واقعية وتعبيرية للغاية، تُحاكي بشكل وثيق حركة الإنسان وسلوكه، وفي الوقت نفسه يتجنب التداخلات أو العيوب الناتجة عن عملية التوليد. قمنا بتقييم منهجنا من خلال مقارنته بالطرق المتعارف عليها لتوليد الإيماءات المصاحبة للكلام، وكذلك بمقارنة البيانات مع مجموعات بيانات حالية للسلوك البشري. كما أجرينا دراسة تحليلية (ablation study) لتقييم نتائجنا. أظهرت النتائج أن منهجنا يتفوق على الحد الأقصى الحالي من التقنية بفارق واضح، ويكون جزئيًا غير قابل للاختلاف عن الإيماءات البشرية. نُقدّم خط أنابيب البيانات والإطار التوليدي بشكل مفتوح للجمهور.