HyperAIHyperAI

Command Palette

Search for a command to run...

تقليل فقدان المعلومات في نماذج Transformers للرسم البصري المتعدد

Qiankun Liu Zhentao Tan Dongdong Chen Qi Chu Xiyang Dai Yinpeng Chen Mengchen Liu Lu Yuan Nenghai Yu

الملخص

حققت نماذج الترانسفورمر نجاحًا كبيرًا في مجال تكملة الصور المتعددة مؤخرًا. ومع ذلك، وجدنا أن الحلول الحالية القائمة على الترانسفورمر تعتبر كل بكسل كرمز (توكن)، مما يؤدي إلى فقدان المعلومات من جهتين: 1) يتم تقليل دقة الصورة الإدخال إلى درجات أقل بكثير لأسباب كفاءة الحوسبة، مما يسبب فقدان معلومات وإزاحة إضافية للحدود المناطق المقنعة. 2) يتم تقسيم البكسلات RGB بقيمة 2563256^32563 إلى عدد صغير (مثل 512) من البكسلات المكممة. تُستخدم مؤشرات البكسلات المكممة كرموز (توكنات) للإدخال والأهداف التنبؤية للترانسفورمر. رغم استخدام شبكة CNN إضافية لزيادة الدقة وتحسين النتائج ذات الدقة المنخفضة، إلا أنه من الصعب استعادة المعلومات المفقودة.لحفظ المعلومات الإدخال بأكبر قدر ممكن، نقترح إطار عمل جديد قائم على الترانسفورمر يُسمى "PUT". وبشكل خاص،为了避免输入降采样同时保持计算效率,我们设计了一种基于补丁的自动编码器 P-VQVAE,其中编码器将遮罩图像转换为非重叠的补丁标记,解码器从修补的标记中恢复遮罩区域,同时保持未遮罩区域不变。为了消除量化导致的信息损失,应用了非量化变压器(UQ-Transformer),它直接将P-VQVAE编码器的特征作为输入,无需量化,并仅将量化标记视为预测目标。تم إجراء العديد من التجارب التي أظهرت أن PUT يتفوق بشكل كبير على أفضل الأساليب الحالية في دقة الصورة، خاصة بالنسبة للمناطق المقنعة الكبيرة والقواعد البيانات المعقدة والكبيرة الحجم. يمكن الحصول على الكود من https://github.com/liuqk3/PUT注: 在翻译过程中,我注意到最后一段有一部分是从中文开始的。为了保证翻译的一致性和准确性,我将其余部分也翻译成了阿拉伯语。以下是修正后的版本:لحفظ المعلومات الإدخال بأكبر قدر ممكن، نقترح إطار عمل جديد قائم على الترانسفورمر يُسمى "PUT". وبشكل خاص،为了避免输入降采样同时保持计算效率,我们设计了一种基于补丁的自动编码器 P-VQVAE،其中编码器将遮罩图像转换为非重叠的补丁标记,解码器从修补的标记中恢复遮罩区域,同时保持未遮罩区域不变。为了消除量化导致的信息损失,应用了非量化变压器(UQ-Transformer),它直接将P-VQVAE编码器的特征作为输入,无需量化,并仅将量化标记视为预测目标。تم إجراء العديد من التجارب التي أظهرت أن PUT يتفوق بشكل كبير على أفضل الأساليب الحالية في دقة الصورة، خاصة بالنسبة للمناطق المقنعة الكبيرة والقواعد البيانات المعقدة والكبيرة الحجم. يمكن الحصول على الكود من https://github.com/liuqk3/PUT修正后的版本:لحفظ المعلومات الإدخال بأكبر قدر ممكن، نقترح إطار عمل جديد قائم على الترانسفورمر يُسمى "PUT". وبشكل خاص، لتجنب تقليل دقة الإدخال مع الحفاظ على كفاءة الحوسبة، قدمنا ​​مُشفر-مفكك تلقائي يستند إلى الرقع (P-VQVAE)، حيث يقوم المشفر بتحويل الصورة المقنعة إلى رموز رقع غير متداخلة والمفكك باستعادة المناطق المقنعة من الرموز المقنعة مع الاحتفاظ بالمناطق غير المقنعة دون تغيير. لحذف فقدان المعلومات الناجم عن التقسيم، تم تطبيق محول غير مقسم (UQ-Transformer)، الذي يأخذ الخصائص مباشرةً من مشفر P-VQVAE دون تقسيم ويعتبر الرموز المقسّمة فقط أهدافًا للتنبؤ.أجريت العديد من التجارب الواسعة التي أظهرت أن PUT يتفوق بشكل كبير على أفضل الأساليب الحديثة في دقة الصورة، خاصة فيما يتعلق بالمناطق المقنعة الكبيرة والقواعد البيانات المعقدة والكبيرة الحجم. يمكن الوصول إلى الكود عبر الرابط: https://github.com/liuqk3/PUT


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقليل فقدان المعلومات في نماذج Transformers للرسم البصري المتعدد | مستندات | HyperAI