HyperAIHyperAI
منذ 18 أيام

استكشاف التحويلات أثناء التدريب والاختبار لتعلم الصوت واللغة

Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon Sim, Jinwoo Lee, Kyogu Lee
استكشاف التحويلات أثناء التدريب والاختبار لتعلم الصوت واللغة
الملخص

في هذه الورقة، نهدف إلى كشف تأثير تكبير البيانات في التعلم متعدد الوسائط الصوتي-اللغوي، والذي لم يُدرَس على الرغم من أهميته. نستعرض مجموعة من طرق التكبير ليس فقط أثناء التدريب، ولكن أيضًا أثناء الاختبار، ونكتشف أن استخدام التكبير المناسب يمكن أن يؤدي إلى تحسينات كبيرة. وبشكل خاص، فإن تطبيق طريقة التكبير المقترحة المزدوجة الصوتية-اللغوية، وهي "PairMix"، التي تمثل أول طريقة لتكبير متعدد الوسائط للصوت واللغة، يتفوق على الطرق الأساسية في مهام التوصيف التلقائي للصوت واسترجاع النص الصوتي. وللاستفادة الكاملة من تكبير البيانات، نقدم أيضًا طريقة تكبير متعددة المستويات أثناء الاختبار (Multi-TTA). وبشكل ناجح، تم دمج الطرائق المقترحة مع طرق التكبير أحادية الوسائط، مما أدى إلى تحقيق نتيجة قدرها 47.5 SPIDEr في توصيف الصوت، أي زيادة نسبية قدرها 18.2٪ مقارنة بالأساس. كما أظهرت الطرائق المقترحة تحسنًا في الأداء أيضًا في مهام استرجاع النص الصوتي.