HyperAIHyperAI

Command Palette

Search for a command to run...

AQ-GT: نموذج GRU-Transformer مُتَوَازِن زمنيًا ومُقَيَّد كميًا لتخليق الحركات الصوتية المشتركة

Hendric Voß Stefan Kopp

الملخص

إن إنتاج إيماءات مصحوبة بالكلام واقعية ومرتبطة بالسياق يُعد مهمةً صعبةً ولكنها تزداد أهميةً في إنشاء الوكالات الاصطناعية متعددة الوسائط. ركزت الطرق السابقة على تعلم علاقة مباشرة بين تمثيلات الإيماءات المصاحبة للكلام وحركات الجسم الناتجة، مما أدى إلى إنتاج إيماءات تبدو طبيعية ولكنها غالبًا ما تكون غير مقنعة عند تقييمها من قبل البشر. نقدم منهجًا لتدريب مسبق لسلسلة جزئية من الإيماءات باستخدام شبكة عصبية مُنتجة مُعاكسة (GAN) مع خط أنابيب كمّي (quantization pipeline). تُستخدم المتجهات الناتجة من مكتبة الرموز (codebook vectors) كمدخلات ونتائج في إطارنا، مما يُشكّل الأساس لتكوين وإعادة بناء الإيماءات. من خلال تعلّم خريطة تمثيل فضاء خفي (latent space) بدلًا من التمثيل المباشر كمتجه، يُمكن لهذا الإطار توليد إيماءات واقعية وتعبيرية للغاية، تُحاكي بشكل وثيق حركة الإنسان وسلوكه، وفي الوقت نفسه يتجنب التداخلات أو العيوب الناتجة عن عملية التوليد. قمنا بتقييم منهجنا من خلال مقارنته بالطرق المتعارف عليها لتوليد الإيماءات المصاحبة للكلام، وكذلك بمقارنة البيانات مع مجموعات بيانات حالية للسلوك البشري. كما أجرينا دراسة تحليلية (ablation study) لتقييم نتائجنا. أظهرت النتائج أن منهجنا يتفوق على الحد الأقصى الحالي من التقنية بفارق واضح، ويكون جزئيًا غير قابل للاختلاف عن الإيماءات البشرية. نُقدّم خط أنابيب البيانات والإطار التوليدي بشكل مفتوح للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp