التدرب المسبق على حوار النص الصوتي لفهم الحوار المنطوق مع التوافق الظاهري بين الوسائط المتعددة

في الآونة الأخيرة، أظهرت طرق التدريب المسبق للكلام والنص نجاحًا ملحوظًا في العديد من مهام معالجة الكلام ومعالجة اللغة الطبيعية. ومع ذلك، فإن معظم النماذج المسبقة السابقة غالبًا ما تكون مخصصة لمهمة أو اثنتين محددتين، ولكنها تفشل في التعامل مع مجموعة واسعة من مهام الكلام والنص. بالإضافة إلى ذلك، فشلت الطرق الحالية لتدريب الكلام والنص المسبق في استكشاف المعلومات السياقية داخل الحوار لتغذية تمثيلات الجمل. في هذا البحث، نقترح طريقة التدريب المسبق للكلام والنص للحوار (SPECTRA) والتي تعتمد على التناظر العابر للوسائط الصريح (ExpliCiT cRoss-Modal Alignment). تعد SPECTRA أول نموذج تدريب مسبق للكلام والنص للحوار. بالتحديد، لاعتبار الزمنية الخاصة بوسيلة الكلام، صممنا مهمة تنبؤ جديدًا بموقع الزمني لتتبع تناظر الكلام والنص. تهدف هذه المهمة إلى التنبؤ بزمن بداية ونهاية كل كلمة نصية في الشكل الموجي للكلام المقابل. بالإضافة إلى ذلك، لتعلم خصائص الحوارات المنطوقة، قمنا بتعميم مهمة اختيار الرد من سياق التدريب المسبق للحوار النصي إلى سياقات التدريب المسبق للحوار بين الكلام والنص. أظهرت النتائج التجريبية على أربع مهام مختلفة للكلام والنص في المرحلة اللاحقة فعالية SPECTRA في تعلم تناظر الكلام والنص وسياق الحوار متعدد الأدوار.