الشبكات العصبية التلقائية كمعلمين متعددي الوسائط: هل يمكن للتحويلات المسبقة التدريب على الصور ثنائية الأبعاد مساعدة تعلم تمثيلات ثلاثية الأبعاد؟

يعتمد نجاح التعلم العميق بشكل كبير على البيانات ذات الحجم الكبير والعلامات الشاملة، والتي تكون أكثر تكلفة ومستهلكة للوقت عند الحصول عليها في البعد الثالث (3D) مقارنة بالصور ثنائية الأبعاد (2D) أو اللغات الطبيعية. هذا يشجع على إمكانية استخدام النماذج المدربة مسبقًا مع بيانات أكثر من البعد الثالث كمعلمين لنقل المعرفة عبر الأوضاع المختلفة. في هذه الورقة البحثية، نعيد النظر في النمذجة المقنعة بأسلوب موحد لنقل المعرفة، ونوضح أن الترانسفورمرات الأساسية التي تم تدريبها مسبقًا باستخدام الصور ثنائية الأبعاد أو اللغات الطبيعية يمكن أن تساعد في تعلم التمثيل الذاتي للبيانات ثلاثية الأبعاد من خلال تدريب الكودرات الآلية كمعلمين عبر الأوضاع المختلفة (ACT).يتم نقل الترانسفورمرات المدربة مسبقًا كمعلمين ثلاثيين عبر الأوضاع المختلفة باستخدام تقنية الترميز الذاتي المتغير المنفصل، حيث يتم تجميد الترانسفورمرات مع ضبط الدوافع لتحقيق أفضل انتقال للمعرفة. يتم استخدام الخصائص الكامنة المشفرة بواسطة المعلمين الثلاثيين كهدف للنمذجة النقاطية المقنعة، حيث يتم تقطير المعرفة الخفية إلى طلاب الترانسفورمر الثلاثي كفهم أساسي للهندسة. حقق نظامنا ACT الذي تم تدريبه مسبقًا قدرة عامّة رائدة على مجموعة متنوعة من مقاييس الإنجاز اللاحقة، مثل دقة الإنجاز الكلية بنسبة 88.21% على مجموعة اختبار ScanObjectNN.تم إطلاق الرموز البرمجية في: https://github.com/RunpeiDong/ACT.