HyperAIHyperAI
منذ 13 أيام

التعلم الذاتي المُوجَّه بصريًا لتمثيلات الكلام

Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic
التعلم الذاتي المُوجَّه بصريًا لتمثيلات الكلام
الملخص

لقد لاقت التعلم التمثيلي التلقائي اهتمامًا بحثيًا كبيرًا مؤخرًا في كل من الوسائط الصوتية والبصرية. ومع ذلك، تركز معظم الدراسات بشكل تقليدي على وسائط أو خصائص معينة بشكل منفصل، وهناك عمل محدود جدًا يدرس التفاعل بين الوسائط الصوتية والبصرية في سياق تعلم التمثيلات التلقائية. نقترح إطارًا لتعلم تمثيلات صوتية تُوجَّه بواسطة الوسيط البصري في سياق الكلام الصوتي-البصري. نستخدم نموذجًا توليديًا يحول الصوت إلى فيديو، حيث نُنشئ فيديوًا متحركًا من صورة ثابتة مُقابلة لقطعة صوتية معينة، ونُحسّن الفيديو المُنتَج ليكون أقرب ما يمكن إلى الفيديو الحقيقي للفقرة الصوتية. من خلال هذه العملية، يتعلم شبكة الترميز الصوتي تمثيلات مفيدة للغة، والتي نقيّمها في مهام التعرف على المشاعر والاعتراف بالصوت. وقد حققنا نتائج متقدمة في التعرف على المشاعر، ونتائج تنافسية في الاعتراف بالصوت. يُظهر هذا النتائج الإمكانات الكبيرة للإشراف البصري في تعلم التمثيلات الصوتية كوسيلة جديدة للتعلم التلقائي، لم تُستكشَف من قبل. يمكن للسمات الصوتية غير المُشرَّفة المقترحة الاستفادة من كم هائل شبه لا نهائي من البيانات التدريبية غير المُعلَّمة للكلام الصوتي-البصري، ولها عدد كبير من التطبيقات الواعدة المحتملة.

التعلم الذاتي المُوجَّه بصريًا لتمثيلات الكلام | أحدث الأوراق البحثية | HyperAI