WavePaint: مُحَوِّل مُسْتَهْلِكٌ فعّال للموارد للـ Token في إعادة البناء ذاتيًا

إعادة تكوين الصور، التي تشير إلى توليد المناطق المفقودة في الصورة، يمكن أن تساعد في استعادة المناطق المغطاة أو التالفة، كما يمكن أن تُستخدم كمهمة أولية للتعلم ذاتيًا. تُعد النماذج الحالية الأفضل في مجال إعادة تكوين الصور مكلفة من حيث الحوسبة، نظرًا لأنها تعتمد على هياكل أساسية من نوع نموذج التحويل (Transformer) أو الشبكات العصبية التلافيفية (CNN)، والتي يتم تدريبها في بيئات متعارضة أو باستخدام النماذج التفريعية (Diffusion). تختلف هذه الورقة عن نماذج التحويل البصرية من خلال استخدام معمارية كاملة تلافيفية تعتمد على WaveMix، وهي معمارية فعالة من حيث الحوسبة تُسمى WavePaint. تعتمد هذه المعمارية على التحويل الموجي الثنائي الأبعاد (DWT) لإجراء خلط الرموز المكانية والمتعددة المعايير، إلى جانب طبقات تلافيفية. تتفوق النموذج المقترح على النماذج الحالية الأفضل من حيث جودة إعادة التكوين، مع استخدام أقل من نصف عدد المعاملات، ووقت تدريب وتقييم أقل بشكل ملحوظ. كما يتفوق نموذجنا على المعماريّات القائمة على GAN في مجموعة بيانات CelebA-HQ، دون الحاجة إلى استخدام مُميّز مُدرّب بشكل متعارض. تشير نتائج عملنا إلى أن الهياكل العصبية التي تُصمم وفقًا لقواعد الصور الطبيعية تتطلب عددًا أقل من المعاملات والحوسبة لتحقيق تعميم مماثل لنموذج التحويل.