HyperAIHyperAI
منذ 17 أيام

MultiMAE: مُؤَوِّرات تلقائية مُقنَّعة متعددة الوسائط ومتعددة المهام

Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir
MultiMAE: مُؤَوِّرات تلقائية مُقنَّعة متعددة الوسائط ومتعددة المهام
الملخص

نُقدّم استراتيجية تدريب مُسبق تُسمّى مُشفّرات الترميز المُقنّعة متعددة الوسائط ومتعددة المهام (MultiMAE). تختلف هذه الاستراتيجية عن الترميز المُقنّع القياسي من حيث جوانب رئيسية اثنتين: أولاً، يمكنها قبول معلومات إضافية من وسائط متعددة في المدخلات إلى جانب الصورة ذات الألوان الثلاثية (RGB) (وهذا ما يفسّر التسمية "متعددة الوسائط")، وثانياً، يشمل هدف التدريب توقع نتائج متعددة إلى جانب الصورة RGB (وهذا ما يفسّر التسمية "متعددة المهام").نستفيد من تقنية التمويه (على مستويات مربعات الصورة والوسائط المدخلة) لجعل تدريب MultiMAE قابلاً للتطبيق، وفي الوقت نفسه لضمان تعلّم الشبكة فعلاً لتقنيات الترميز التنبؤي بين الوسائط المختلفة. نُظهر أن هذه الاستراتيجية للتدريب المسبق تؤدي إلى إطار عمل مرن وبسيط وفعال، يحقق نتائج مُحسّنة في التحويل إلى المهام اللاحقة. وبشكل خاص، يمكن استخدام الشبكة المُدرّبة مسبقاً بنفس الشكل في حال توفر معلومات إضافية بخلاف الصور RGB، أو في حال توفر معلومات فقط من الصور RGB – حيث تُظهر جميع التكوينات نتائج تنافسية أو أفضل بشكل ملحوظ مقارنة بالأساليب الأساسية. ولتجنب الحاجة إلى مجموعات بيانات تحتوي على وسائط متعددة ومهام متعددة، نُدرّب MultiMAE بالكامل باستخدام التسمية الاصطناعية (pseudo labeling)، مما يجعل الإطار قابلاً للتطبيق على أي مجموعة بيانات مبنية على صور RGB.أُجريت التجارب على مهام تحويل متعددة (التصنيف الصوري، التجزئة الدلالية، تقدير العمق) وبيانات متعددة (ImageNet، ADE20K، Taskonomy، Hypersim، NYUv2). وتُظهر النتائج قدرة مُثيرة للإعجاب حقاً للنموذج في الترميز التنبؤي بين الوسائط والمهام المختلفة، فضلاً عن كفاءته العالية في التحويل.

MultiMAE: مُؤَوِّرات تلقائية مُقنَّعة متعددة الوسائط ومتعددة المهام | أحدث الأوراق البحثية | HyperAI