HyperAIHyperAI
منذ 2 أشهر

نشاط صوتي بصرى موجه لربط الهوية بين الوسائط المتعددة لاكتشاف المتحدث النشط

Sharma, Rahul ; Narayanan, Shrikanth
نشاط صوتي بصرى موجه لربط الهوية بين الوسائط المتعددة لاكتشاف المتحدث النشط
الملخص

اكتشاف المتحدث النشط في الفيديوهات يتناول ربط الوجه المصدري المرئي في إطارات الفيديو بالكلام الأساسي في النمط الصوتي. هناك مصدرين رئيسيين للمعلومات لاستنتاج هذه العلاقة بين الكلام والوجه، وهما: أ) النشاط البصري وتداخله مع إشارة الكلام، وب) تكرار هويات المتحدثين عبر النماذج المختلفة على شكل وجه وكلام. لكل من هذين الأسلوبين قيوده: تختلط نماذج النشاط السمعي-البصري بالأنشطة الصوتية الأخرى المتكررة مثل الضحك والمضغ، بينما تقتصر طرق تحديد هوية المتحدث على الفيديوهات التي تحتوي على معلومات كافية لتحديد العلاقة بين الكلام والوجه. بما أن هذين الأسلوبين مستقلان، فإننا نستكشف طبيعتهما التكميلية في هذا البحث. نقترح إطارًا جديدًا غير مشرف يوجّه ربط هوية المتحدث عبر النماذج المختلفة بنشاط السمع والرؤية لاكتشاف المتحدث النشط. من خلال التجارب على مقاطع الفيديو الوسائطية الترفيهية من مجموعتين معياريتين للبيانات، وهما مجموعة بيانات AVA للمتحدث النشط (الأفلام) ومجموعة بيانات تجميع الشخص البصري (البرامج التلفزيونية)، نظهر أن دمجًا بسيطًا متأخرًا للأساليب الاثنين يعزز أداء اكتشاف المتحدث النشط.请注意,这里有一些术语的翻译:- Active speaker detection: اكتشاف المتحدث النشط- Video frames: إطارات الفيديو- Audio modality: النمط الصوتي- Speech-face relationship: العلاقة بين الكلام والوجه- Visual activity: النشاط البصري- Speech signal: إشارة الكلام- Co-occurrences of speakers' identities across modalities: تكرار هويات المتحدثين عبر النماذج المختلفة- Unsupervised framework: الإطار غير المشرف- Cross-modal identity association: ربط الهوية عبر النماذج المختلفة- Late fusion: الدمج المتأخر如果需要进一步调整或有特定术语需要特别处理,请告知。

نشاط صوتي بصرى موجه لربط الهوية بين الوسائط المتعددة لاكتشاف المتحدث النشط | أحدث الأوراق البحثية | HyperAI