HyperAIHyperAI

Command Palette

Search for a command to run...

فصل "التشريش" عن "الدردشة": التأطير البصري الذاتي للصوت واللغة

Mark Hamilton Andrew Zisserman John R. Hershey William T. Freeman

الملخص

نقدم DenseAV، وهي هندسة ترميز ثنائية جديدة تقوم بتعلم خصائص ذات دقة عالية ومعنى سيمانتيكي ومتوازنة صوتياً ومرئياً من خلال مشاهدة الفيديوهات فقط. نوضح أن DenseAV قادرة على اكتشاف "المعنى" للكلمات و"الموقع" للأصوات دون إشراف صريح على التوطين. بالإضافة إلى ذلك، فإنها تكتشف وتفرق بين هذين النوعين من الارتباطات بشكل تلقائي دون إشراف. نوضح أن قدرات التوطين في DenseAV تنبع من مشغل جمع خصائص متعدد الرؤوس جديد يقوم بمقارنة مباشرة تمثيلات الصور الكثيفة والتمثيلات الصوتية لتعلم التباين. بالمقابل، لا تستطيع العديد من الأنظمة الأخرى التي تتعلم تمثيلات "عالمية" للصوت والفيديو تحديد موقع الكلمات والأصوات. أخيراً، نساهم بتقديم مجموعتين من البيانات جديدتين لتحسين تقييم التمثيلات السمعية-البصرية من خلال تقسيم المعنى المحفز بالكلام والأصوات. على هذه المجموعات وأخرى، نوضح أن DenseAV تتفوق بشكل كبير على الأعمال السابقة في تقسيم المعنى المحفز بالكلام والأصوات. كما أن DenseAV تتفوق على الحالة السابقة لأفضل التقنيات (state-of-the-art)، ImageBind، في استرجاع البيانات عبر الوسائط المتعددة باستخدام أقل من نصف عدد المعلمات.صفحة المشروع: https://aka.ms/denseav{https://aka.ms/denseav}


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp