SEEG: توليد إيماءات مصاحبة للكلام مُفعّلة دلاليًا

إن توليد الإيماءات المتحدثة هو مهمة عملية لكنها صعبة، وتهدف إلى تصنيع إيماءات تتماشى مع الكلام. تُعد الإيماءات التي تحمل إشارات ذات معنى أكثر قدرة على نقل معلومات مفيدة وتحفيز التفاعل العاطفي لدى الجمهور. تركز الدراسات الحالية على محاذاة الإيماءات مع إيقاعات الكلام، لكن هذه الأساليب تواجه صعوبة في استخراج المعاني ونمذجة الإيماءات المعبرة عن المعنى بشكل صريح. في هذه الورقة، نقترح منهجية جديدة تُسمى SEEG (توليد مُفعَّل بالمعنى)، لصنع إيماءات واعية بالمعنى. تتكون منطقتنا من جزأين: وحدة استخراج منفصلة (DEM) ووحدة تفعيل معنوي (SEM). تُفصل وحدة DEM المعلومات غير المتعلقة بالمعنى من المدخلات، وتنقّب بشكل منفصل عن المعلومات المطلوبة لإنشاء الإيماءات الإيقاعية والمعنوية. أما وحدة SEM، فتقوم بتعلم المعنى وإنتاج الإيماءات المعبرة عنه. إلى جانب التشابه في التمثيل، تُشترط من وحدة SEM أن تكون التنبؤات متوافقة من حيث المعنى مع القيمة الحقيقية (ground truth). بالإضافة إلى ذلك، تم تصميم "مُحفِّز معنوي" داخل وحدة SEM لاستغلال الإشراف الواعي بالمعنى وتحسين التنبؤات، مما يُعزز قدرة الشبكات على تعلّم وإنتاج الإيماءات المعبرة عن المعنى. أظهرت النتائج التجريبية، المُقدمة عبر ثلاث مقاييس على مجموعات بيانات مختلفة، أن SEEG تُميّز بفعالية إشارات المعنى وتصنع إيماءات معنوية. مقارنةً بالأساليب الأخرى، تتفوّق SEEG في جميع تقييمات الوعي بالمعنى على مختلف المجموعات. كما تُظهر التقييمات النوعية تفوق SEEG في التعبير عن المعنى.