حساب تكيفي قابل للتوسع لل générations التكرارية

البيانات الطبيعية تتسم بالازدواجية، ومع ذلك فإن المعمارية السائدة تقوم بتقسيم الحساب بشكل موحد عبر الفضاء المدخل والمخرج. نقترح بنية تُعرف بـ "الشبكات المُتكررة للواجهة" (RINs)، وهي بنية تعتمد على الانتباه، وتُفصل الحساب الأساسي عن أبعاد البيانات، مما يتيح حسابًا مُتكيفًا لتمكين توليد بيانات عالية الأبعاد بشكل أكثر قابلية للتوسع. تركز RINs على الجزء الأكبر من الحساب (أي الانتباه الذاتي العالمي) على مجموعة من الرموز المخفية، مستخدمة الانتباه المتقاطع لقراءة وكتابة (أي توجيه) المعلومات بين الرموز المخفية والرموز الخاصة بالبيانات. وعند تجميع كتل RIN، يُمكن تحقيق تغذية راجعة من الأسفل إلى الأعلى (من البيانات إلى الرموز المخفية) ومن الأعلى إلى الأسفل (من الرموز المخفية إلى البيانات)، مما يؤدي إلى توجيه أعمق وأكثر تعبيرًا. وعلى الرغم من التحديات التي يفرضها هذا التوجيه، فإن هذه المشكلة تكون أقل إشكالية في البيئات الحسابية المتكررة، حيث تتغير المهمة (والمشكلة المتعلقة بالتوجيه) تدريجيًا، مثل التوليد التكراري باستخدام نماذج التبديد (diffusion models). نوضح كيف يمكن استغلال التكرار من خلال تخصيص الرموز المخفية في كل عملية تمرير أمامي لعملية التبديد العكسي باستخدام تلك الرموز من الحسابات السابقة، أي ما يُعرف بـ "التحفيز الذاتي للرموز المخفية". تُظهر RINs نماذج تبديد بكسلية متقدمة في مجال توليد الصور والفيديوهات، وتُ-scalable حتى صور بمقاس 1024×1024 دون الحاجة إلى سلسلة متعددة من النماذج أو التوجيه، مع الحفاظ على خصائص عامة للنطاق (domain-agnostic)، وتوفر كفاءة تصل إلى 10 أضعاف مقارنةً بنماذج U-Net ثنائية وثلاثية الأبعاد.