منذ 8 أشهر

الملخص

تقف تقنية التعرف على الكلام البصري (VSR) عند تقاطع رؤية الحاسوب والتعرف على الكلام، وتهدف إلى تفسير المحتوى المنطوق من العلامات البصرية. من التحديات البارزة في VSR وجود الكلمات المتشابهة صوتياً (الهوموفونات)- حركات الشفتين البصرية المشابهة التي تمثل فونيمات مختلفة. سعت الطرق السابقة إلى تمييز الفيزيمات الدقيقة من خلال مواءمة الدلالات البصرية والسمعية، لكنها غالباً ما فشلت في تحقيق التزامن الكامل. لمعالجة هذا الأمر، نقدم SyncVSR، وهو إطار تعلم شامل يستخدم الصوت الم量化音频进行帧级跨模态监督。通过整合一个同步视觉表示与声学数据的投影层，我们的编码器学会了以非自回归的方式从视频序列生成离散的音频标记。SyncVSR يظهر مرونة في المهام واللغات والأطراف بتكلفة مرور الأمام. تقييماتنا التجريبية تظهر أنه ليس فقط يحقق نتائج رائدة في مجاله، بل يقلل أيضاً من استخدام البيانات بمقدار يصل إلى تسعة أضعاف.注：在上述翻译中，“量化音频”和“非自回归”这两个术语在阿拉伯语中没有通用的标准翻译，因此保留了原文并加了括号标注。修正后的翻译：تقف تقنية التعرف على الكلام البصري (VSR) عند تقاطع رؤية الحاسوب والتعرف على الكلام، وتهدف إلى تفسير المحتوى المنطوق من العلامات البصرية. من التحديات البارزة في VSR وجود الكلمات المتشابهة صوتياً (الهوموفونات)- حركات الشفتين البصرية المشابهة التي تمثل فونيمات مختلفة. سعت الطرق السابقة إلى تمييز الفيزيمات الدقيقة من خلال مواءمة الدلالات البصرية والسمعية، لكنها غالباً ما فشلت في تحقيق التزامن الكامل. لمعالجة هذا الأمر، نقدم SyncVSR، وهو إطار تعلم شامل يستخدم الصوت المتقطع (quantized audio) للإشراف عبر الأطراف على مستوى الإطار الزمني. من خلال دمج طبقة إسقاط تتماشى فيها التمثيلات البصرية مع البيانات الصوتية، تعلم مُشفِّرنا كيفية إنتاج علامات صوتية متقطعة (discrete audio tokens) من سلسلة الفيديو بطريقة غير ذاتية الانحدار (non-autoregressive). يظهر SyncVSR مرونته عبر المهام واللغات والأطراف بتكلفة مرور الأمام. أظهرت تقييماتنا التجريبية أنه ليس فقط يحقق نتائج رائدة في مجاله، بل يقلل أيضاً من استخدام البيانات بمقدار يصل إلى تسعة أضعاف.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SyncVSR: التعرف على الكلام البصري بكفاءة في استخدام البيانات مع مزامنة علامات الصوت متعددة الوسائط من النهاية إلى النهاية

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SyncVSR: التعرف على الكلام البصري بكفاءة في استخدام البيانات مع مزامنة علامات الصوت متعددة الوسائط من النهاية إلى النهاية

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SyncVSR: التعرف على الكلام البصري بكفاءة في استخدام البيانات مع مزامنة علامات الصوت متعددة الوسائط من النهاية إلى النهاية

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters