ViNet: دفع حدود الوسائط البصرية للتنبؤ بالتفرد السمعي-البصري

نقترح معمارية ViNet للتنبؤ بالبروز السمعي البصري. تتميز معمارية ViNet بأنها عبارة عن هيكل مشفر-مفكك بالكامل باستخدام التحويلات التلافية. يستخدم المشفر خصائص بصرية من شبكة تم تدريبها لتحديد الأفعال، بينما يقوم المفكك بالاستدلال على خريطة البروز عبر الاستيفاء الثلاثي الخطي والتحويلات ثلاثية الأبعاد، مع دمج الخصائص من عدة مستويات هرمية. تعتبر المعمارية العامة لـ ViNet بسيطة من الناحية المفهومية؛ فهي سببية وتعمل في الوقت الفعلي (60 إطارًا في الثانية). لا تستخدم ViNet الصوت كمدخل، ومع ذلك فإنها تتفوق على نماذج التنبؤ بالبروز السمعي البصري الأكثر تقدمًا في تسعة مجموعات بيانات مختلفة (ثلاثة مجموعات بيانات بصرية فقط وستة مجموعات بيانات سمعية بصرية). كما أن ViNet تتفوق على الأداء البشري في مقاييس CC وSIM وAUC لمجموعة البيانات AVE، وفي علمتنا، إنها أول شبكة تقوم بذلك. كما نقوم باستكشاف متغير من معمارية ViNet بإضافة خصائص صوتية إلى المفكك. وبشكل مفاجئ، بعد التدريب الكافي، تصبح الشبكة غير مرتبطة بالمدخل الصوتي وتقدم نفس الإخراج بغض النظر عن المدخل. بشكل مثير للاهتمام، نلاحظ أيضًا سلوكًا مشابهًا في النماذج السابقة الأكثر تقدمًا \cite{tsiami2020stavis} للتنبؤ بالبروز السمعي البصري. تعكس نتائجنا أعمال البحوث السابقة التي تعتمد على التعلم العميق للتنبؤ بالبروز السمعي البصري، مما يشير إلى طريق واضح للمستكشفات المستقبلية التي تتضمن الصوت بطريقة أكثر فعالية. يمكن الوصول إلى الرمز والموديلات المدربة مسبقًا عبر الرابط: https://github.com/samyak0210/ViNet.