HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّلات الصوت

Verma Prateek Berger Jonathan

الملخص

خلال العقدين الماضيين، أنتجت هياكل الشبكات العصبية التلافيفية (CNN) نماذج مقنعة لفهم الصوت والتمييز السمعي، حيث تتعلم التنظيم الهرمي للميزات. وتشبه هذه النجاحات في مجال الرؤية الحاسوبية، حيث يمكن تحسين تصنيف ميزات الصوت لمهام معينة محددة، على مجموعة واسعة من المجموعات البيانات والتصنيفات. في الواقع، أثبتت الهياكل المشابهة المصممة لفهم الصور فعاليتها في تحليل المشهد الصوتي. هنا، نقترح تطبيق هياكل تعتمد على المُحَوِّل (Transformer) دون استخدام طبقات تلافيفية مباشرة على الإشارات الصوتية الخام. على مجموعة بيانات قياسية تُسمى Free Sound 50K، التي تتضمن 200 فئة، تفوق نموذجنا النماذج التلافيفية، مما يحقق نتائج متقدمة على مستوى التقنية الحالية. ويعتبر هذا إنجازًا مهمًا، إذ على عكس ما يحدث في معالجة اللغة الطبيعية والرؤية الحاسوبية، لا نقوم بتدريب مسبق غير مراقب (unsupervised pre-training) لتفوق النماذج التلافيفية. وعلى نفس مجموعة التدريب، نُظهر تحسنًا كبيرًا مقارنةً بمقاييس الدقة المتوسطة. كما نُحسّن أداء هياكل المُحَوِّل باستخدام تقنيات مثل التجميع (pooling) المستوحاة من الشبكات التلافيفية التي طوّرت خلال السنوات القليلة الماضية. بالإضافة إلى ذلك، نُظهر كيف يمكن تطبيق أفكار المعالجة الإشارية متعددة المعدلات المستوحاة من الموجات الصغيرة (wavelets) على تمثيلات المُحَوِّل (Transformer embeddings) لتحسين النتائج. ونُظهر أيضًا كيف يتعلم نموذجنا بنية مُحَوِّلة غير خطية وغير ثابتة العرض النطاقي (bandwidth)، مما يُظهر تمثيلًا متكيفًا في المجال الزمني-الترددية أمام المهمة المتعلقة بفهم الصوت، وهو تمثيل مختلف عن المهام الأخرى مثل تقدير النغمة (pitch estimation).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp