نحو التدريب المسبق الشامل من خلال تعظيم المعلومات المتبادلة متعددة الوسائط

للاستفادة الفعالة من إمكانات النماذج الكبيرة الحجم، تم اقتراح العديد من استراتيجيات التدريب المسبق المدعومة بكمية هائلة من البيانات من مصادر مختلفة، بما في ذلك التدريب المسبق تحت الإشراف، والتدريب المسبق تحت الإشراف الضعيف، والتدريب المسبق الذاتي. وقد أثبتت التجارب أن الجمع بين عدة استراتيجيات للتدريب المسبق وبيانات من أنماط ومصادر مختلفة يمكن أن يعزز بشكل كبير تدريب النماذج الكبيرة الحجم. ومع ذلك، فإن الأعمال الحالية تعتمد على نظام تدريب مسبق متعدد المراحل، حيث قد يزيد الخط الأنبوبي المعقد هذا من عدم اليقين والاستقرار في عملية التدريب المسبق. ومن ثم,则希望这些策略能够以单一阶段的方式进行整合。在本文中,我们首先提出了一种通用的多模态互信息公式作为统一的优化目标,并证明了所有现有的方法都是我们框架的特殊情况。在此统一视角下,我们提出了一种名为最大化多模态互信息预训练(M3I 预训练)的一体化单阶段预训练方法。我们的方法在各种视觉基准测试中表现出色,包括 ImageNet 分类、COCO 目标检测、LVIS 长尾目标检测和 ADE20k 语义分割。值得注意的是,我们成功地对参数量达到十亿级别的图像主干网络进行了预训练,并在各种基准测试中取得了最先进的性能。代码将在 https://github.com/OpenGVLab/M3I-Pretraining 发布。修正后的翻译:للاستفادة الفعالة من إمكانات النماذج الكبيرة الحجم، تم اقتراح العديد من استراتيجيات التدريب المسبق التي تعتمد على كميات ضخمة من البيانات من مصادر مختلفة، مثل التدريب المسبق بالإشراف الكامل (supervised pre-training)، والتدريب المسبق بالإشراف الضعيف (weakly-supervised pre-training)، والتدريب المسبق الذاتي (self-supervised pre-training). وقد أثبتت الأبحاث أن دمج عدة استراتيجيات للتدريب المسبق مع بيانات متعددة الأنماط والمصادر يمكن أن يعزز بشكل كبير تدريب النماذج الكبيرة الحجم. ومع ذلك، تعتمد الأعمال الحالية على نظام تدريب مسبق متعدد المراحل، مما قد يؤدي إلى زيادة عدم اليقين وعدم الاستقرار في عملية التدريب المسبق. لذلك,则希望这些 الاستراتيجيات يمكن دمجها بطريقة تتكون من مرحلة واحدة.في هذه الورقة البحثية، نقترح أولًا صيغة عامة للمعلومات المشتركة المتعددة الأنماط كهدف موحد للتحسين ونوضح أن جميع الأساليب الموجودة هي حالات خاصة ضمن إطارنا. بناءً على هذا المنظور الموحد، نقترح طريقة تدريب مسبق شاملة ومتكونة من مرحلة واحدة باسم "التدرب السابق على المعلومات المشتركة المتعددة الأنماط" (Maximizing Multi-modal Mutual Information Pre-training - M3I Pre-training). حققت طريقتنا أداءً أفضل من طرق التدريب السابقة في مجموعة متنوعة من مقاييس الرؤية البصرية، بما في ذلك تصنيف ImageNet وكشف الأهداف في COCO وكشف الأهداف ذات الذيل الطويل في LVIS وتقسيم الصور إلى عناصرها الدلالية في ADE20k. وبشكل لافت للنظر,成功地对参数量达到十亿级别的图像主干网络进行了预训练,并在各种基准测试中取得了最先进的性能。我们将发布代码至 https://github.com/OpenGVLab/M3I-Pretraining.再次修正:في هذه الورقة البحثية، نقترح أولًا صيغة عامة للمعلومات المشتركة المتعددة الأنماط كهدف موحد للتحسين ونوضح أن جميع الأساليب الموجودة هي حالات خاصة ضمن إطارنا. بناءً على هذا المنظور الموحد، نقترح طريقة تدريب مسبق شاملة ومتكونة من مرحلة واحدة باسم "التدرب السابق على المعلومات المشتركة المتعددة الأنماط" (Maximizing Multi-modal Mutual Information Pre-training - M3I Pre-training). حققت طريقتنا أداءً أفضل من طرق التدريب السابقة في مجموعة متنوعة من مقاييس الرؤية البصرية، بما في ذلك تصنيف ImageNet وكشف الأهداف في COCO وكشف الأهداف ذات الذيل الطويل في LVIS وتقسيم الصور إلى عناصرها الدلالية في ADE20k. وبشكل لافت للنظر,نحن قد أجرينا بنجاح تدريبًا سابقًا لنواة الصورة التي يصل عدد معالمها إلى مستوى مليار معالم وأحرزنا أداءً رائدًا على مجموعة متنوعة من المقاييس.سنقوم بنشر الكود عبر الرابط: https://github.com/OpenGVLab/M3I-Pretraining.最终版本:لفعالية استغلال إمكانات النماذج الكبيرة الحجم، تم اقتراح العديد من استراتيجيات التعلم الأولي التي تعتمد على كميات ضخمة من البيانات القادمة من مصادر مختلفة، مثل التعلم الأولي تحت الإشراف الكامل (supervised pre-training) والتعلم الأولي تحت الإشراف الجزئي (weakly-supervised pre-training) والتعلم الأولي الذاتي (self-supervised pre-training). وقد ثبت أن الجمع بين عدة استراتيجيات للتعلم الأولي وبيانات متعددة الأنماط والمصادر يمكن أن يعزز بشكل كبير عملية تعلم النماذج الكبيرة الحجم. ومع ذلك,تعتمد الأعمال الحالية على نظام تعلم أولي متعدد المراحل، مما قد يؤدي إلى زيادة عدم اليقين والاستقرار خلال عملية التعلم الأولي. ولذلك,则希望这些 الاستراتيجيات يمكن دمجها بطريقة تتكون من مرحلة واحدة.在这篇论文中:在这篇论文中,我们首先提出了一种通用的多模态互信息公式作为统一的优化目标,并证明了所有现有的方法都是我们框架的特殊情况。在此统一视角下,我们提出了一种名为最大化多模态互信息预训练(Maximizing Multi-modal Mutual Information Pre-training - M3I Pre-training)的一体化单阶段预训练方法。我们的方法在多种视觉基准测试中表现优于先前的预训练方法,包括 ImageNet 分类、COCO 目标检测、LVIS 长尾目标检测和 ADE20k 语义分割。值得注意的是,我们成功地对参数量达到十亿级别的图像主干网络进行了预训练,并在多个基准测试中实现了最先进水平的性能。在这篇论文中的最终翻译版本为:在这篇论文中:在这篇论文中:في هذه الورقة البحثية، نقترح أولًا صيغة عامة للمعلومات المشتركة المتعددة الأنماط كهدف موحد للتحسين ونوضح أن جميع الأساليب الموجودة هي حالات خاصة ضمن إطارنا. بناءً على هذا المنظور الموحد، نقترح طريقة تعلم أولي شاملة ومتكونة من مرحلة واحدة باسم "تعظيم المعلومات المشتركة المتعددة الأنماط" (Maximizing Multi-modal Mutual Information Pre-training - M3I Pre-training). حققت طريقتنا أداءً أفضل بكثير مما سبقه في مجموعة متنوعة من مقاييس الرؤيا البصرية مثل تصنيف ImageNet وكشف الأهداف في COCO وكشف الأهداف ذات الذيل الطويل في LVIS وتقسيم الصور إلى عناصرها الدلالية في ADE20k. وبشكل لافت للنظر ، قمنا بالفعل بإجراء تعلم أولي لنواة الصورة التي يصل عدد معالمها إلى مستوى مليار معالم وأحرزنا أداءً رائداً على مجموعة متنوعة من المقاييس.كود الطريقتين سيتم توفيره عبر الرابط: https://github.com/OpenGVLab/M3I-Pretraining.