منذ 8 أشهر

الملخص

اكتشاف المتحدث النشط في الفيديوهات يتناول ربط الوجه المصدري المرئي في إطارات الفيديو بالكلام الأساسي في النمط الصوتي. هناك مصدرين رئيسيين للمعلومات لاستنتاج هذه العلاقة بين الكلام والوجه، وهما: أ) النشاط البصري وتداخله مع إشارة الكلام، وب) تكرار هويات المتحدثين عبر النماذج المختلفة على شكل وجه وكلام. لكل من هذين الأسلوبين قيوده: تختلط نماذج النشاط السمعي-البصري بالأنشطة الصوتية الأخرى المتكررة مثل الضحك والمضغ، بينما تقتصر طرق تحديد هوية المتحدث على الفيديوهات التي تحتوي على معلومات كافية لتحديد العلاقة بين الكلام والوجه. بما أن هذين الأسلوبين مستقلان، فإننا نستكشف طبيعتهما التكميلية في هذا البحث. نقترح إطارًا جديدًا غير مشرف يوجّه ربط هوية المتحدث عبر النماذج المختلفة بنشاط السمع والرؤية لاكتشاف المتحدث النشط. من خلال التجارب على مقاطع الفيديو الوسائطية الترفيهية من مجموعتين معياريتين للبيانات، وهما مجموعة بيانات AVA للمتحدث النشط (الأفلام) ومجموعة بيانات تجميع الشخص البصري (البرامج التلفزيونية)، نظهر أن دمجًا بسيطًا متأخرًا للأساليب الاثنين يعزز أداء اكتشاف المتحدث النشط.请注意，这里有一些术语的翻译：- Active speaker detection: اكتشاف المتحدث النشط- Video frames: إطارات الفيديو- Audio modality: النمط الصوتي- Speech-face relationship: العلاقة بين الكلام والوجه- Visual activity: النشاط البصري- Speech signal: إشارة الكلام- Co-occurrences of speakers' identities across modalities: تكرار هويات المتحدثين عبر النماذج المختلفة- Unsupervised framework: الإطار غير المشرف- Cross-modal identity association: ربط الهوية عبر النماذج المختلفة- Late fusion: الدمج المتأخر如果需要进一步调整或有特定术语需要特别处理，请告知。

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

RAHUL SHARMA SHRIKANTH NARAYANAN

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

RAHUL SHARMA SHRIKANTH NARAYANAN

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

RAHUL SHARMA SHRIKANTH NARAYANAN

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نشاط صوتي بصرى موجه لربط الهوية بين الوسائط المتعددة لاكتشاف المتحدث النشط

RAHUL SHARMA SHRIKANTH NARAYANAN

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نشاط صوتي بصرى موجه لربط الهوية بين الوسائط المتعددة لاكتشاف المتحدث النشط

RAHUL SHARMA SHRIKANTH NARAYANAN

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نشاط صوتي بصرى موجه لربط الهوية بين الوسائط المتعددة لاكتشاف المتحدث النشط

RAHUL SHARMA SHRIKANTH NARAYANAN

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters