HyperAIHyperAI

Command Palette

Search for a command to run...

SyncVSR: التعرف على الكلام البصري بكفاءة في استخدام البيانات مع مزامنة علامات الصوت متعددة الوسائط من النهاية إلى النهاية

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

الملخص

تقف تقنية التعرف على الكلام البصري (VSR) عند تقاطع رؤية الحاسوب والتعرف على الكلام، وتهدف إلى تفسير المحتوى المنطوق من العلامات البصرية. من التحديات البارزة في VSR وجود الكلمات المتشابهة صوتياً (الهوموفونات)- حركات الشفتين البصرية المشابهة التي تمثل فونيمات مختلفة. سعت الطرق السابقة إلى تمييز الفيزيمات الدقيقة من خلال مواءمة الدلالات البصرية والسمعية، لكنها غالباً ما فشلت في تحقيق التزامن الكامل. لمعالجة هذا الأمر، نقدم SyncVSR، وهو إطار تعلم شامل يستخدم الصوت الم量化音频进行帧级跨模态监督。通过整合一个同步视觉表示与声学数据的投影层,我们的编码器学会了以非自回归的方式从视频序列生成离散的音频标记。SyncVSR يظهر مرونة في المهام واللغات والأطراف بتكلفة مرور الأمام. تقييماتنا التجريبية تظهر أنه ليس فقط يحقق نتائج رائدة في مجاله، بل يقلل أيضاً من استخدام البيانات بمقدار يصل إلى تسعة أضعاف.注:在上述翻译中,“量化音频”和“非自回归”这两个术语在阿拉伯语中没有通用的标准翻译,因此保留了原文并加了括号标注。修正后的翻译:تقف تقنية التعرف على الكلام البصري (VSR) عند تقاطع رؤية الحاسوب والتعرف على الكلام، وتهدف إلى تفسير المحتوى المنطوق من العلامات البصرية. من التحديات البارزة في VSR وجود الكلمات المتشابهة صوتياً (الهوموفونات)- حركات الشفتين البصرية المشابهة التي تمثل فونيمات مختلفة. سعت الطرق السابقة إلى تمييز الفيزيمات الدقيقة من خلال مواءمة الدلالات البصرية والسمعية، لكنها غالباً ما فشلت في تحقيق التزامن الكامل. لمعالجة هذا الأمر، نقدم SyncVSR، وهو إطار تعلم شامل يستخدم الصوت المتقطع (quantized audio) للإشراف عبر الأطراف على مستوى الإطار الزمني. من خلال دمج طبقة إسقاط تتماشى فيها التمثيلات البصرية مع البيانات الصوتية، تعلم مُشفِّرنا كيفية إنتاج علامات صوتية متقطعة (discrete audio tokens) من سلسلة الفيديو بطريقة غير ذاتية الانحدار (non-autoregressive). يظهر SyncVSR مرونته عبر المهام واللغات والأطراف بتكلفة مرور الأمام. أظهرت تقييماتنا التجريبية أنه ليس فقط يحقق نتائج رائدة في مجاله، بل يقلل أيضاً من استخدام البيانات بمقدار يصل إلى تسعة أضعاف.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SyncVSR: التعرف على الكلام البصري بكفاءة في استخدام البيانات مع مزامنة علامات الصوت متعددة الوسائط من النهاية إلى النهاية | مستندات | HyperAI