منذ 2 أشهر

تتبع RGB-T القائم على Transformers مع دمج الخصائص القنواتية والمكانية

Yunfeng Li; Bo Wang; Ye Li; Zhiwen Yu; Liang Wang

الملخص

كيفية دمج الخصائص متعددة الوسائط بشكل أفضل هي المشكلة الأساسية في تتبع RGB-T. بعض الطرق السابقة إما أنها تدمج خصائص RGB وTIR بشكل غير كافٍ، أو تعتمد على وسيط يحتوي على معلومات من الوسيلتين لتحقيق التفاعل المعلوماتي بين الوسائط. الأولى لا تستغل بالكامل الإمكانات باستخدام معلومات RGB وTIR فقط من القالب أو منطقة البحث لدمج الخصائص القنواتية والمكانية، والثانية تفتقر إلى التفاعل المباشر بين القالب ومنطقة البحث، مما يحد من قدرة النموذج على استغلال المعلومات الدلالية الأصلية للوسيلتين. لحل هذه القيود، نستكشف كيفية تحسين أداء المتحول البصري من خلال دمج مباشر للقنوات والخصائص المكانية متعددة الوسائط، ونقترح CSTNet. يستخدم CSTNet ViT كهيكل أساسي ويقوم بإدخال وحدات دمج الخصائص القنواتية متعددة الوسائط (CFM) وأجهزة دمج الخصائص المكانية متعددة الوسائط (SFM) لتحقيق التفاعل المباشر بين خصائص RGB وTIR. تقوم CFM بتعزيز القنوات المشترك بشكل متوازي وتقوم بتقديم نموذج مشترك للخصائص المكانية المتعددة المستويات لـRGB وTIR ثم جمع الخصائص، وبعد ذلك تتكامل الخواصة المجتمعة عالمياً مع الخواصة الأصلية. يستخدم SFM انتباهًا متقاطعًا لتقديم العلاقة المكانية للخصائص متعددة الوسائط ثم يدخل شبكة تغذية الأمام بالتجعيد لتحقيق دمج مشترك للمكان والقنوات لمجموعة متنوعة من الخواصة. نعيد تدريب النموذج باستخدام أوزان CSNet كأوزان ما قبل التدريب في النموذج الذي تم فيه إزالة CFM وSFM، ونقترح CSTNet-small، والذي يحقق تخفيض بنسبة 36% في عدد المعلمات وخفة بنسبة 24% في Flops، بالإضافة إلى زيادة السرعة بنسبة 50% مع انخفاض في الأداء بنسبة 1-2%. تظهر التجارب الشاملة أن CSTNet يحقق أداءً رائدًا على ثلاثة مقاييس عامة لتتبع RGB-T. يمكن الوصول إلى الكود عبر الرابط: https://github.com/LiYunfengLYF/CSTNet.请注意，这里的“خواصة”在阿拉伯语中并不是一个常见的术语，通常会使用“خصائص”来表示“features”。为了保持一致性，建议将所有出现的“خواصة”替换为“خصائص”。以下是修正后的版本：كيفية دمج الخصائص متعددة الوسائط بشكل أفضل هي المشكلة الأساسية في تتبع RGB-T. بعض الطرق السابقة إما أنها تدمج خصائص RGB وTIR بشكل غير كافٍ، أو تعتمد على وسيط يحتوي على معلومات من الوسيلتين لتحقيق التفاعل المعلوماتي بين الوسائط. الأولى لا تستغل بالكامل الإمكانات باستخدام معلومات RGB وTIR فقط من القالب أو منطقة البحث لدمج الخصائص القنواتية والمكانية، والثانية تفتقر إلى التفاعل المباشر بين القالب ومنطقة البحث، مما يحد من قدرة النموذج على استغلال المعلومات الدلالية الأصلية للوسيلتين. لحل هذه القيود، نستكشف كيفية تحسين أداء المتحول البصرى من خلال دمج مباشر للقنوات والخصائص المكانية متعددة الوسائط، ونقترح CSTNet. يستخدم CSTNet ViT كهيكل أساسي ويقوم بإدخال وحدات دمج الخصوصيات القنواتية متعددة الوسائط (CFM) وأجهزة دمج الخصال المكانية متعددة الوسائل (SFM) لتحقيق التفاعل المباشر بين خاصيات RGB وTIR. تقوم CFM بتعزيز القنوات المشترك بشكل متوازي وتقدم نموذجاً مشتركاً للخصال المكانية المتعددة المستويات لـRGB وTIR ثم جمع الخاصيات، وبعد ذلك يتم دمج الخاصيات المجتمعة عالمياً مع الخاصيات الأصلية. يستخدم SFM انتباهاً متقاطعاً لتقديم العلاقة المكانية للخاصيات متعددة الوسائل ثم يدخل شبكة تغذية الأمام بالتجعيد لتحقيق دمج مشترك للمكان والقنوات لمجموعة متنوعة من الخاصيات. نعيد تدريب النموذج باستخدام أوزان CSNet كأوزان ما قبل التدريب في النموذج الذي تم فيه إزالة CFM وSFM، ونقترح CSTNet-small، والذي يحقق تخفيضاً بنسبة 36% في عدد المعالم وخفة بنسبة 24% في Flops بالإضافة إلى زيادة السرعة بنسبة 50% مع انخفاض في الأداء بنسبة 1-2%. تظهر التجارب الشاملة أن CSTNet يحقق أداءً رائدًا على ثلاثة مقاييس عامة لتتبع RGB-T. يمكن الوصول إلى الكود عبر الرابط: https://github.com/LiYunfengLYF/CSTNet.希望这个翻译符合您的要求。如果有任何进一步的修改或调整，请告知我。