HyperAIHyperAI
منذ 2 أشهر

فصل "التشريش" عن "الدردشة": التأطير البصري الذاتي للصوت واللغة

Mark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman
فصل "التشريش" عن "الدردشة": التأطير البصري الذاتي للصوت واللغة
الملخص

نقدم DenseAV، وهي هندسة ترميز ثنائية جديدة تقوم بتعلم خصائص ذات دقة عالية ومعنى سيمانتيكي ومتوازنة صوتياً ومرئياً من خلال مشاهدة الفيديوهات فقط. نوضح أن DenseAV قادرة على اكتشاف "المعنى" للكلمات و"الموقع" للأصوات دون إشراف صريح على التوطين. بالإضافة إلى ذلك، فإنها تكتشف وتفرق بين هذين النوعين من الارتباطات بشكل تلقائي دون إشراف. نوضح أن قدرات التوطين في DenseAV تنبع من مشغل جمع خصائص متعدد الرؤوس جديد يقوم بمقارنة مباشرة تمثيلات الصور الكثيفة والتمثيلات الصوتية لتعلم التباين. بالمقابل، لا تستطيع العديد من الأنظمة الأخرى التي تتعلم تمثيلات "عالمية" للصوت والفيديو تحديد موقع الكلمات والأصوات. أخيراً، نساهم بتقديم مجموعتين من البيانات جديدتين لتحسين تقييم التمثيلات السمعية-البصرية من خلال تقسيم المعنى المحفز بالكلام والأصوات. على هذه المجموعات وأخرى، نوضح أن DenseAV تتفوق بشكل كبير على الأعمال السابقة في تقسيم المعنى المحفز بالكلام والأصوات. كما أن DenseAV تتفوق على الحالة السابقة لأفضل التقنيات (state-of-the-art)، ImageBind، في استرجاع البيانات عبر الوسائط المتعددة باستخدام أقل من نصف عدد المعلمات.صفحة المشروع: https://aka.ms/denseav{https://aka.ms/denseav}

فصل "التشريش" عن "الدردشة": التأطير البصري الذاتي للصوت واللغة | أحدث الأوراق البحثية | HyperAI