HyperAIHyperAI

Command Palette

Search for a command to run...

ViNet: دفع حدود الوسائط البصرية للتنبؤ بالتفرد السمعي-البصري

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

الملخص

نقترح معمارية ViNet للتنبؤ بالبروز السمعي البصري. تتميز معمارية ViNet بأنها عبارة عن هيكل مشفر-مفكك بالكامل باستخدام التحويلات التلافية. يستخدم المشفر خصائص بصرية من شبكة تم تدريبها لتحديد الأفعال، بينما يقوم المفكك بالاستدلال على خريطة البروز عبر الاستيفاء الثلاثي الخطي والتحويلات ثلاثية الأبعاد، مع دمج الخصائص من عدة مستويات هرمية. تعتبر المعمارية العامة لـ ViNet بسيطة من الناحية المفهومية؛ فهي سببية وتعمل في الوقت الفعلي (60 إطارًا في الثانية). لا تستخدم ViNet الصوت كمدخل، ومع ذلك فإنها تتفوق على نماذج التنبؤ بالبروز السمعي البصري الأكثر تقدمًا في تسعة مجموعات بيانات مختلفة (ثلاثة مجموعات بيانات بصرية فقط وستة مجموعات بيانات سمعية بصرية). كما أن ViNet تتفوق على الأداء البشري في مقاييس CC وSIM وAUC لمجموعة البيانات AVE، وفي علمتنا، إنها أول شبكة تقوم بذلك. كما نقوم باستكشاف متغير من معمارية ViNet بإضافة خصائص صوتية إلى المفكك. وبشكل مفاجئ، بعد التدريب الكافي، تصبح الشبكة غير مرتبطة بالمدخل الصوتي وتقدم نفس الإخراج بغض النظر عن المدخل. بشكل مثير للاهتمام، نلاحظ أيضًا سلوكًا مشابهًا في النماذج السابقة الأكثر تقدمًا \cite{tsiami2020stavis} للتنبؤ بالبروز السمعي البصري. تعكس نتائجنا أعمال البحوث السابقة التي تعتمد على التعلم العميق للتنبؤ بالبروز السمعي البصري، مما يشير إلى طريق واضح للمستكشفات المستقبلية التي تتضمن الصوت بطريقة أكثر فعالية. يمكن الوصول إلى الرمز والموديلات المدربة مسبقًا عبر الرابط: https://github.com/samyak0210/ViNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp