Command Palette
Search for a command to run...
صورة ذات قيمة 32 رمزًا لإعادة البناء والتكوين
صورة ذات قيمة 32 رمزًا لإعادة البناء والتكوين
Qihang Yu Mark Weber Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen
الملخص
أظهرت التطورات الحديثة في النماذج التوليدية الدور الحاسم لعملية تجزئة الصور في توليد صور عالية الدقة بشكل فعّال. حيث تُحوّل تجزئة الصور، التي تحوّل الصور إلى تمثيلات مخزّنة (لاتنت)، من المطالبات الحسابية مقارنةً بمعالجة البكسلات مباشرةً، وتعزز من كفاءة وفعالية عملية التوليد. وتعتمد الطرق السابقة، مثل VQGAN، عادةً على شبكات لاتنت ثنائية الأبعاد بعوامل تقليل ثابتة. ومع ذلك، تواجه هذه الطرق المُجزَّئة ثنائية الأبعاد صعوبات في التعامل مع التكرار المتأصّل في الصور، حيث تُظهر المناطق المجاورة غالبًا تشابهًا كبيرًا. لتجاوز هذه المشكلة، نقدّم "مُجزِّئ الترانسفورمر أحادي البُعد" (TiTok)، وهي منهجية مبتكرة تُجزِّئ الصور إلى تسلسلات لاتنت أحادية البُعد. يُقدّم TiTok تمثيلًا لاتنتيًا أكثر كفاءة وانسيابية، ما يُنتج تمثيلات أكثر فعالية وكفاءة مقارنةً بالتقنيات التقليدية. فمثلاً، يمكن تقليل صورة بحجم 256×256×3 إلى مجرد 32 توكينًا منفصلًا، وهو تقليل كبير مقارنةً بـ 256 أو 1024 توكينًا التي تُنتجها الطرق السابقة. وعلى الرغم من كثافته العالية، يُحقّق TiTok أداءً تنافسيًا مع أحدث الطرق. فباستخدام نفس الإطار المُولِّد، يُسجّل TiTok نتيجة 1.97 gFID، متفوّقًا بشكل ملحوظ على نموذج الأساس MaskGIT بفارق 4.21 في معيار ImageNet 256×256. وتزداد مزايا TiTok أهميةً عند الانتقال إلى دقة أعلى. ففي معيار ImageNet 512×512، لا يفوق TiTok نموذج التوليد الانتشاري المُتقدّم DiT-XL/2 (1.97 gFID مقابل 3.04)، بل يقلّل أيضًا من عدد توكينات الصورة بنسبة 64 ضعفًا، ما يؤدي إلى تسريع عملية التوليد بنسبة 410 أضعاف. وتمكّن النسخة الأفضل من TiTok من تفوق كبير على DiT-XL/2 (1.97 gFID مقابل 3.04)، مع إمكانية توليد عينات عالية الجودة بسرعة 74 ضعفًا.