HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم الذاتي المُوجَّه بصريًا لتمثيلات الكلام

Abhinav Shukla Konstantinos Vougioukas Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

لقد لاقت التعلم التمثيلي التلقائي اهتمامًا بحثيًا كبيرًا مؤخرًا في كل من الوسائط الصوتية والبصرية. ومع ذلك، تركز معظم الدراسات بشكل تقليدي على وسائط أو خصائص معينة بشكل منفصل، وهناك عمل محدود جدًا يدرس التفاعل بين الوسائط الصوتية والبصرية في سياق تعلم التمثيلات التلقائية. نقترح إطارًا لتعلم تمثيلات صوتية تُوجَّه بواسطة الوسيط البصري في سياق الكلام الصوتي-البصري. نستخدم نموذجًا توليديًا يحول الصوت إلى فيديو، حيث نُنشئ فيديوًا متحركًا من صورة ثابتة مُقابلة لقطعة صوتية معينة، ونُحسّن الفيديو المُنتَج ليكون أقرب ما يمكن إلى الفيديو الحقيقي للفقرة الصوتية. من خلال هذه العملية، يتعلم شبكة الترميز الصوتي تمثيلات مفيدة للغة، والتي نقيّمها في مهام التعرف على المشاعر والاعتراف بالصوت. وقد حققنا نتائج متقدمة في التعرف على المشاعر، ونتائج تنافسية في الاعتراف بالصوت. يُظهر هذا النتائج الإمكانات الكبيرة للإشراف البصري في تعلم التمثيلات الصوتية كوسيلة جديدة للتعلم التلقائي، لم تُستكشَف من قبل. يمكن للسمات الصوتية غير المُشرَّفة المقترحة الاستفادة من كم هائل شبه لا نهائي من البيانات التدريبية غير المُعلَّمة للكلام الصوتي-البصري، ولها عدد كبير من التطبيقات الواعدة المحتملة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp