HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف التحويلات أثناء التدريب والاختبار لتعلم الصوت واللغة

Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim Jinwoo Lee Kyogu Lee

الملخص

في هذه الورقة، نهدف إلى كشف تأثير تكبير البيانات في التعلم متعدد الوسائط الصوتي-اللغوي، والذي لم يُدرَس على الرغم من أهميته. نستعرض مجموعة من طرق التكبير ليس فقط أثناء التدريب، ولكن أيضًا أثناء الاختبار، ونكتشف أن استخدام التكبير المناسب يمكن أن يؤدي إلى تحسينات كبيرة. وبشكل خاص، فإن تطبيق طريقة التكبير المقترحة المزدوجة الصوتية-اللغوية، وهي "PairMix"، التي تمثل أول طريقة لتكبير متعدد الوسائط للصوت واللغة، يتفوق على الطرق الأساسية في مهام التوصيف التلقائي للصوت واسترجاع النص الصوتي. وللاستفادة الكاملة من تكبير البيانات، نقدم أيضًا طريقة تكبير متعددة المستويات أثناء الاختبار (Multi-TTA). وبشكل ناجح، تم دمج الطرائق المقترحة مع طرق التكبير أحادية الوسائط، مما أدى إلى تحقيق نتيجة قدرها 47.5 SPIDEr في توصيف الصوت، أي زيادة نسبية قدرها 18.2٪ مقارنة بالأساس. كما أظهرت الطرائق المقترحة تحسنًا في الأداء أيضًا في مهام استرجاع النص الصوتي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp