منذ 6 أشهر

الملخص

البيانات الطبيعية تتسم بالازدواجية، ومع ذلك فإن المعمارية السائدة تقوم بتقسيم الحساب بشكل موحد عبر الفضاء المدخل والمخرج. نقترح بنية تُعرف بـ "الشبكات المُتكررة للواجهة" (RINs)، وهي بنية تعتمد على الانتباه، وتُفصل الحساب الأساسي عن أبعاد البيانات، مما يتيح حسابًا مُتكيفًا لتمكين توليد بيانات عالية الأبعاد بشكل أكثر قابلية للتوسع. تركز RINs على الجزء الأكبر من الحساب (أي الانتباه الذاتي العالمي) على مجموعة من الرموز المخفية، مستخدمة الانتباه المتقاطع لقراءة وكتابة (أي توجيه) المعلومات بين الرموز المخفية والرموز الخاصة بالبيانات. وعند تجميع كتل RIN، يُمكن تحقيق تغذية راجعة من الأسفل إلى الأعلى (من البيانات إلى الرموز المخفية) ومن الأعلى إلى الأسفل (من الرموز المخفية إلى البيانات)، مما يؤدي إلى توجيه أعمق وأكثر تعبيرًا. وعلى الرغم من التحديات التي يفرضها هذا التوجيه، فإن هذه المشكلة تكون أقل إشكالية في البيئات الحسابية المتكررة، حيث تتغير المهمة (والمشكلة المتعلقة بالتوجيه) تدريجيًا، مثل التوليد التكراري باستخدام نماذج التبديد (diffusion models). نوضح كيف يمكن استغلال التكرار من خلال تخصيص الرموز المخفية في كل عملية تمرير أمامي لعملية التبديد العكسي باستخدام تلك الرموز من الحسابات السابقة، أي ما يُعرف بـ "التحفيز الذاتي للرموز المخفية". تُظهر RINs نماذج تبديد بكسلية متقدمة في مجال توليد الصور والفيديوهات، وتُ-scalable حتى صور بمقاس 1024×1024 دون الحاجة إلى سلسلة متعددة من النماذج أو التوجيه، مع الحفاظ على خصائص عامة للنطاق (domain-agnostic)، وتوفر كفاءة تصل إلى 10 أضعاف مقارنةً بنماذج U-Net ثنائية وثلاثية الأبعاد.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار