HyperAIHyperAI
منذ 2 أشهر

SyncVSR: التعرف على الكلام البصري بكفاءة في استخدام البيانات مع مزامنة علامات الصوت متعددة الوسائط من النهاية إلى النهاية

Ahn, Young Jin ; Park, Jungwoo ; Park, Sangha ; Choi, Jonghyun ; Kim, Kee-Eung
SyncVSR: التعرف على الكلام البصري بكفاءة في استخدام البيانات مع مزامنة علامات الصوت متعددة الوسائط من النهاية إلى النهاية
الملخص

تقف تقنية التعرف على الكلام البصري (VSR) عند تقاطع رؤية الحاسوب والتعرف على الكلام، وتهدف إلى تفسير المحتوى المنطوق من العلامات البصرية. من التحديات البارزة في VSR وجود الكلمات المتشابهة صوتياً (الهوموفونات)- حركات الشفتين البصرية المشابهة التي تمثل فونيمات مختلفة. سعت الطرق السابقة إلى تمييز الفيزيمات الدقيقة من خلال مواءمة الدلالات البصرية والسمعية، لكنها غالباً ما فشلت في تحقيق التزامن الكامل. لمعالجة هذا الأمر، نقدم SyncVSR، وهو إطار تعلم شامل يستخدم الصوت الم量化音频进行帧级跨模态监督。通过整合一个同步视觉表示与声学数据的投影层,我们的编码器学会了以非自回归的方式从视频序列生成离散的音频标记。SyncVSR يظهر مرونة في المهام واللغات والأطراف بتكلفة مرور الأمام. تقييماتنا التجريبية تظهر أنه ليس فقط يحقق نتائج رائدة في مجاله، بل يقلل أيضاً من استخدام البيانات بمقدار يصل إلى تسعة أضعاف.注:在上述翻译中,“量化音频”和“非自回归”这两个术语在阿拉伯语中没有通用的标准翻译,因此保留了原文并加了括号标注。修正后的翻译:تقف تقنية التعرف على الكلام البصري (VSR) عند تقاطع رؤية الحاسوب والتعرف على الكلام، وتهدف إلى تفسير المحتوى المنطوق من العلامات البصرية. من التحديات البارزة في VSR وجود الكلمات المتشابهة صوتياً (الهوموفونات)- حركات الشفتين البصرية المشابهة التي تمثل فونيمات مختلفة. سعت الطرق السابقة إلى تمييز الفيزيمات الدقيقة من خلال مواءمة الدلالات البصرية والسمعية، لكنها غالباً ما فشلت في تحقيق التزامن الكامل. لمعالجة هذا الأمر، نقدم SyncVSR، وهو إطار تعلم شامل يستخدم الصوت المتقطع (quantized audio) للإشراف عبر الأطراف على مستوى الإطار الزمني. من خلال دمج طبقة إسقاط تتماشى فيها التمثيلات البصرية مع البيانات الصوتية، تعلم مُشفِّرنا كيفية إنتاج علامات صوتية متقطعة (discrete audio tokens) من سلسلة الفيديو بطريقة غير ذاتية الانحدار (non-autoregressive). يظهر SyncVSR مرونته عبر المهام واللغات والأطراف بتكلفة مرور الأمام. أظهرت تقييماتنا التجريبية أنه ليس فقط يحقق نتائج رائدة في مجاله، بل يقلل أيضاً من استخدام البيانات بمقدار يصل إلى تسعة أضعاف.