منذ 2 أشهر

تقليل فقدان المعلومات في نماذج Transformers للرسم البصري المتعدد

Qiankun Liu; Zhentao Tan; Dongdong Chen; Qi Chu; Xiyang Dai; Yinpeng Chen; Mengchen Liu; Lu Yuan; Nenghai Yu

الملخص

حققت نماذج الترانسفورمر نجاحًا كبيرًا في مجال تكملة الصور المتعددة مؤخرًا. ومع ذلك، وجدنا أن الحلول الحالية القائمة على الترانسفورمر تعتبر كل بكسل كرمز (توكن)، مما يؤدي إلى فقدان المعلومات من جهتين: 1) يتم تقليل دقة الصورة الإدخال إلى درجات أقل بكثير لأسباب كفاءة الحوسبة، مما يسبب فقدان معلومات وإزاحة إضافية للحدود المناطق المقنعة. 2) يتم تقسيم البكسلات RGB بقيمة $256^3$ إلى عدد صغير (مثل 512) من البكسلات المكممة. تُستخدم مؤشرات البكسلات المكممة كرموز (توكنات) للإدخال والأهداف التنبؤية للترانسفورمر. رغم استخدام شبكة CNN إضافية لزيادة الدقة وتحسين النتائج ذات الدقة المنخفضة، إلا أنه من الصعب استعادة المعلومات المفقودة.لحفظ المعلومات الإدخال بأكبر قدر ممكن، نقترح إطار عمل جديد قائم على الترانسفورمر يُسمى "PUT". وبشكل خاص،为了避免输入降采样同时保持计算效率，我们设计了一种基于补丁的自动编码器 P-VQVAE，其中编码器将遮罩图像转换为非重叠的补丁标记，解码器从修补的标记中恢复遮罩区域，同时保持未遮罩区域不变。为了消除量化导致的信息损失，应用了非量化变压器（UQ-Transformer），它直接将P-VQVAE编码器的特征作为输入，无需量化，并仅将量化标记视为预测目标。تم إجراء العديد من التجارب التي أظهرت أن PUT يتفوق بشكل كبير على أفضل الأساليب الحالية في دقة الصورة، خاصة بالنسبة للمناطق المقنعة الكبيرة والقواعد البيانات المعقدة والكبيرة الحجم. يمكن الحصول على الكود من https://github.com/liuqk3/PUT注：在翻译过程中，我注意到最后一段有一部分是从中文开始的。为了保证翻译的一致性和准确性，我将其余部分也翻译成了阿拉伯语。以下是修正后的版本：لحفظ المعلومات الإدخال بأكبر قدر ممكن، نقترح إطار عمل جديد قائم على الترانسفورمر يُسمى "PUT". وبشكل خاص،为了避免输入降采样同时保持计算效率，我们设计了一种基于补丁的自动编码器 P-VQVAE،其中编码器将遮罩图像转换为非重叠的补丁标记，解码器从修补的标记中恢复遮罩区域，同时保持未遮罩区域不变。为了消除量化导致的信息损失，应用了非量化变压器（UQ-Transformer），它直接将P-VQVAE编码器的特征作为输入，无需量化，并仅将量化标记视为预测目标。تم إجراء العديد من التجارب التي أظهرت أن PUT يتفوق بشكل كبير على أفضل الأساليب الحالية في دقة الصورة، خاصة بالنسبة للمناطق المقنعة الكبيرة والقواعد البيانات المعقدة والكبيرة الحجم. يمكن الحصول على الكود من https://github.com/liuqk3/PUT修正后的版本：لحفظ المعلومات الإدخال بأكبر قدر ممكن، نقترح إطار عمل جديد قائم على الترانسفورمر يُسمى "PUT". وبشكل خاص، لتجنب تقليل دقة الإدخال مع الحفاظ على كفاءة الحوسبة، قدمنا مُشفر-مفكك تلقائي يستند إلى الرقع (P-VQVAE)، حيث يقوم المشفر بتحويل الصورة المقنعة إلى رموز رقع غير متداخلة والمفكك باستعادة المناطق المقنعة من الرموز المقنعة مع الاحتفاظ بالمناطق غير المقنعة دون تغيير. لحذف فقدان المعلومات الناجم عن التقسيم، تم تطبيق محول غير مقسم (UQ-Transformer)، الذي يأخذ الخصائص مباشرةً من مشفر P-VQVAE دون تقسيم ويعتبر الرموز المقسّمة فقط أهدافًا للتنبؤ.أجريت العديد من التجارب الواسعة التي أظهرت أن PUT يتفوق بشكل كبير على أفضل الأساليب الحديثة في دقة الصورة، خاصة فيما يتعلق بالمناطق المقنعة الكبيرة والقواعد البيانات المعقدة والكبيرة الحجم. يمكن الوصول إلى الكود عبر الرابط: https://github.com/liuqk3/PUT