HyperAIHyperAI
منذ 11 أيام

صورة تستحق 32 رمزًا لاستعادة وإنشاء الصور

Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
صورة تستحق 32 رمزًا لاستعادة وإنشاء الصور
الملخص

أظهرت التطورات الحديثة في النماذج التوليدية الدور الحاسم لعملية تجزئة الصور في توليد صور عالية الدقة بكفاءة. حيث تقوم عملية التجزئة بتحويل الصور إلى تمثيلات متخزنة (latent representations)، مما يقلل من الأعباء الحسابية مقارنة بالمعالجة المباشرة للبكسلات، ويعزز كفاءة وفعالية عملية التوليد. في المقابل، تعتمد الطرق السابقة مثل VQGAN عادةً على شبكات متخزنة ثنائية الأبعاد ذات عوامل تقليل ثابتة. ومع ذلك، تواجه هذه التجزئات ثنائية الأبعاد صعوبات في التعامل مع التكرارات الطبيعية المتأصلة في الصور، حيث تظهر المناطق المجاورة غالبًا تشابهًا كبيرًا. لتجاوز هذه المشكلة، نقدم طريقة مبتكرة تُسمى "مُجزئ الترانسفورمر ذي البُعد الواحد" (TiTok)، التي تقوم بتحويل الصور إلى تسلسلات متخزنة أحادية البعد. يوفر TiTok تمثيلًا متخزّنًا أكثر كفاءة وانسيابية، مما يؤدي إلى تمثيلات أكثر فعالية وكفاءة مقارنة بالتقنيات التقليدية. على سبيل المثال، يمكن تقليل صورة بحجم 256 × 256 × 3 إلى مجرد 32 توكينًا منفصلًا، وهو تقليل كبير مقارنة بـ 256 أو 1024 توكينًا التي تُنتجها الطرق السابقة. وبالرغم من طبيعته المدمجة، يحقق TiTok أداءً تنافسيًا مع أفضل النماذج الحالية. وباستخدام نفس إطار التوليد، يحقق TiTok نتيجة تبلغ 1.97 في معيار gFID، متفوقًا بشكل ملحوظ على نموذج الأساس MaskGIT بنسبة 4.21 في معيار ImageNet بحجم 256 × 256. وتزداد أهمية مزايا TiTok بشكل كبير عند التعامل مع دقة أعلى. ففي معيار ImageNet بحجم 512 × 512، لا يتفوق TiTok على النموذج التوليدي المتطور DiT-XL/2 (gFID 2.74 مقابل 3.04)، بل يقلل أيضًا من عدد التوكينات بنسبة 64 مرة، ما يؤدي إلى تسريع عملية التوليد بنسبة 410 مرة. ويُظهر أفضل نسخة من TiTok أداءً يتفوق بشكل كبير على DiT-XL/2 (gFID 2.13 مقابل 3.04)، مع إمكانية توليد عينات عالية الجودة بسرعة 74 مرة أسرع.

صورة تستحق 32 رمزًا لاستعادة وإنشاء الصور | أحدث الأوراق البحثية | HyperAI