HyperAIHyperAI
منذ 19 أيام

EnCLAP: دمج كوديك الصوت العصبي وتمثيل مشترك بين الصوت والنص لتقديم وصف تلقائي للصوت

Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo
EnCLAP: دمج كوديك الصوت العصبي وتمثيل مشترك بين الصوت والنص لتقديم وصف تلقائي للصوت
الملخص

نُقدِّمُ EnCLAP، إطارًا جديدًا للوصف التلقائي للصوتيات. يعتمد EnCLAP على نموذجين لتمثيل الصوت، هما EnCodec و CLAP، بالإضافة إلى نموذج لغوي مُدرَّب مسبقًا، وهو BART. كما نُقدِّمُ هدفَ تدريب جديدًا يُسمَّى "نمذجة الكوديك المُتَعَلِّقَة" (masked codec modeling)، والذي يُحسِّن من وعي النموذج اللغوي المُدرَّب مسبقًا بالجوانب الصوتية. أظهرت النتائج التجريبية على مجموعتي بيانات AudioCaps وClotho تفوق نموذجنا على نماذج الأساس (baseline). ستكون الشفرة المصدرية متاحة عبر الرابط: https://github.com/jaeyeonkim99/EnCLAP. كما يُتاح عرض تجريبي عبر الإنترنت من خلال: https://huggingface.co/spaces/enclap-team/enclap.