HyperAIHyperAI
منذ 17 أيام

إطلاق Transformers: التنبؤ المتوازي بالرموز باستخدام تمايز امتصاصي منفصل لتحسين إنتاج الصور عالية الدقة بسرعة من الرموز المُكمَّلة متجهيًا

Sam Bond-Taylor, Peter Hessey, Hiroshi Sasaki, Toby P. Breckon, Chris G. Willcocks
إطلاق Transformers: التنبؤ المتوازي بالرموز باستخدام تمايز امتصاصي منفصل لتحسين إنتاج الصور عالية الدقة بسرعة من الرموز المُكمَّلة متجهيًا
الملخص

بينما يمكن للنماذج الاحتمالية التوزيعية إنتاج محتوى صور عالي الجودة، تظل هناك قيود رئيسية فيما يتعلق بإنتاج صور عالية الدقة ومتطلبات الحوسبة المرتفعة المرتبطة بها. وقد تغلبت النماذج المتجهة المُرَقَّمة للصور على هذه القيد المتعلق بدقة الصورة، لكنها تُعد بطيئة للغاية وغير ثنائية الاتجاه، حيث تُولِّد الرموز عن طريق العينة ذاتية التسلسل عن كل عنصر من المُسبَّق الاحتمالي. على النقيض من ذلك، في هذه الورقة، نقترح بيئةً جديدةً لنموذج احتمالي توزيعي منفصلة تتيح التنبؤ المتوازي للرموز المُرَقَّمة متجهة باستخدام بنية معمارية ترانسفورمر غير مقيدة كعمود فقري. أثناء التدريب، تُخفي الرموز بشكل عشوائي بطريقة لا تعتمد على الترتيب، وتعلم الشبكة الترانسفورمر التنبؤ بالرموز الأصلية. وبهذا التوازي في التنبؤ بالرموز المُرَقَّمة متجهة، يُمكننا توليد صور عالية الدقة متسقة عالميًا ومتنوعة بتكاليف حوسبة ضئيلة نسبيًا. وبهذا الشكل، نستطيع إنتاج صور بجودة تفوق دقة عينات مجموعة التدريب الأصلية، مع توفير تقديرات احتمالية لكل صورة (مما يشكل انفصالًا عن النماذج التوليدية التنافسية). تحقق طريقتنا نتائج متميزة على مستوى الكثافة (LSUN Bedroom: 1.51؛ LSUN Churches: 1.12؛ FFHQ: 1.20) ونطاق التغطية (LSUN Bedroom: 0.83؛ LSUN Churches: 0.73؛ FFHQ: 0.80)، كما تُظهر أداءً تنافسيًا في معيار FID (LSUN Bedroom: 3.64؛ LSUN Churches: 4.07؛ FFHQ: 6.11)، مع مزايا واضحة من حيث كفاءة الحوسبة وانخفاض متطلبات مجموعة التدريب.

إطلاق Transformers: التنبؤ المتوازي بالرموز باستخدام تمايز امتصاصي منفصل لتحسين إنتاج الصور عالية الدقة بسرعة من الرموز المُكمَّلة متجهيًا | أحدث الأوراق البحثية | HyperAI