UniRepLKNet: شبكة كونفولوشنية كبيرة الحجم متعددة الاستخدامات لتمييز الصوت، الفيديو، السحابة النقطية، السلاسل الزمنية، والصور

حصلت الشبكات العصبية التلافيفية ذات الكيرنل الكبير (ConvNets) على اهتمام بحثي واسع في الآونة الأخيرة، لكن هناك قضيتين غير محلولتين وحيويتين تتطلبان مزيداً من الدراسة. 1) تتبع هندسة الشبكات العصبية التلافيفية ذات الكيرنل الكبير الحالية مبادئ التصميم التقليدية للشبكات التلافيفية أو نماذج المُحَوِّل (Transformers)، في حين أن تصميم الهيكل المعماري لهذه الشبكات ذات الكيرنل الكبير ما زال مُهملًا إلى حد كبير. 2) وعلى الرغم من هيمنة نماذج المُحَوِّل على عدة مجالات متعددة، لا يزال من المطلوب استكشاف ما إذا كانت الشبكات التلافيفية تمتلك أيضًا قدرة استبصار عامة قوية في مجالات تتجاوز الرؤية الحاسوبية. في هذا البحث، نقدم مساهمة من جهتين. 1) نقترح أربع مبادئ هندسية لتصميم الشبكات التلافيفية ذات الكيرنل الكبير، وتمثّل النواة الأساسية لهذه المبادئ استغلال الخصائص الجوهرية للكيرنل الكبير التي تميزه عن الكيرنل الصغير – وهي القدرة على "الرؤية الواسعة دون الحاجة إلى العمق". وفقًا لهذه المبادئ، تُظهر الشبكة التلافيفية ذات الكيرنل الكبير التي نقترحها أداءً متفوقًا في مهام التعرف على الصور (دقة ImageNet 88.0%، و mIoU على ADE20K 55.6%، و AP للصندوق على COCO 56.4%)، محققة أداءً أفضل وأسرع من المنافسين الحديثين القويين. 2) نكتشف أن الكيرنل الكبير هو المفتاح لتفعيل الأداء الاستثنائي للشبكات التلافيفية في مجالات كانت في الأصل غير مُتقنة فيها. وباستخدام تقنيات ما قبل المعالجة الخاصة بكل مجال، تحقق النموذج المقترح أداءً متميزًا على مستوى الحد الأقصى (SOTA) في مهام تنبؤ السلاسل الزمنية وتمييز الصوت، حتى دون تخصيص معماري مخصص لكل مجال. جميع الشفرات والنموذج متوفرة بشكل عام على GitHub وHuggingface.