MARLIN: مُشغّل الترميز المقنّع لتمثيل الفيديو الوجهي

يقترح هذا البحث نهجًا ذاتي الإشراف لتعلم تمثيلات وجهية عامة من الفيديوهات، والتي يمكن نقلها عبر مجموعة متنوعة من مهام تحليل الوجه مثل التعرف على صفات الوجه (FAR)، والتعرف على تعابير الوجه (FER)، وكشف العمليات المزيفة العميقة (DFD)، وتناسق الشفاه (LS). الإطار المقترح لدينا، والذي أطلقنا عليه اسم MARLIN، هو مشفّر فيديو للوجه معتمد على التكميم الذاتي، يتعلم تمثيلات وجهية عالية المتانة والعمومية من مقاطع الفيديو الغير مشمولة بالتعليقات والمتوفرة بكثرة على الويب. كمهمة مساعدة صعبة، يقوم MARLIN بإعادة بناء التفاصيل المكانية-الزمانية للوجه من المناطق الوجهية الكثيفة التكميم والتي تشمل بشكل أساسي العينين، الأنف، الفم، الشفاه والجلد لالتقاط الجوانب المحلية والعالمية التي بدورها تساعد في ترميز خصائص عامة وقابلة للنقل. من خلال سلسلة من التجارب على مهام متعددة ومتنوعة في مرحلة ما بعد التدريب، نثبت أن MARLIN يعد مشفّر فيديو للوجه ومستخرج خصائص ممتازًا، حيث يؤدي بشكل ثابت جيد عبر مجموعة متنوعة من المهام في مرحلة ما بعد التدريب بما في ذلك FAR (زيادة بنسبة 1.13% عن النموذج المرجعي الخاضع للإشراف)، FER (زيادة بنسبة 2.64% عن النموذج المرجعي غير الخاضع للإشراف)، DFD (زيادة بنسبة 1.86% عن النموذج المرجعي غير الخاضع للإشراف)، LS (زيادة بنسبة 29.36% لمسافة فريشيت إنشن)، وحتى في حالات البيانات المنخفضة. رمز البرمجيات ونماذجنا متاحة على الرابط https://github.com/ControlNet/MARLIN .