إلى التعلم التمثيلي ثلاثي الأبعاد على نطاق واسع باستخدام التدريب بالتنبيه النقطي متعدد المجموعات

إن التقدم السريع في نماذج التعلم العميق يُعزى غالبًا إلى قدرتها على الاستفادة من كميات ضخمة من البيانات التدريبية. في المقابل، لم يستفد التعلم العميق ثلاثي الأبعاد بعد من هذا الميزة بشكل كامل، وذلك أساسًا بسبب ندرة مجموعات البيانات الكبيرة ثلاثية الأبعاد. وتمثل مزج مصادر البيانات المتاحة المختلفة وتمكينها من التدريب التعاوني لنموذج واحد حلًا محتملًا. ومع ذلك، نظرًا للفرق الكبير بين المجالات (domain gap) في مجموعات بيانات السحابة النقطية ثلاثية الأبعاد، قد يؤدي هذا النوع من التدريب المدمج إلى تأثير سلبي على أداء النموذج، مما يسبب تدهور الأداء مقارنة بالتدريب على مجموعة بيانات واحدة (أي نقل سلبي). ونظرًا لهذا التحدي، نقدم إطارًا جديدًا يُسمى "التدريب باستخدام المُحفزات النقطية" (Point Prompt Training - PPT)، وهو إطار مبتكر للتعلم التعاوني بين مجموعات بيانات متعددة في سياق تعلم التمثيل ثلاثي الأبعاد، ويدعم عدة نماذج للتدريب المسبق. بناءً على هذا الإطار، نقترح "التوحيد المُوجه بالمحفزات" (Prompt-driven Normalization)، الذي يُعدّل النموذج ليتناسب مع مجموعات بيانات مختلفة باستخدام محفزات مخصصة لكل مجال، بالإضافة إلى "المحاذاة الفئوية المُوجهة باللغة" (Language-guided Categorical Alignment)، التي توحد بشكل فعّال فضاءات التسميات المتعددة لمجموعات البيانات باستخدام العلاقات بين نصوص التسميات. وقد أثبتت التجارب الواسعة أن PPT قادر على التغلب على التأثير السلبي المرتبط بالتعلم التعاوني، وإنتاج تمثيلات قابلة للتوسع. وبشكل ملحوظ، حقق أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) في كل مجموعة بيانات باستخدام نموذج واحد مُشترك للوزن، مع التدريب المراقب على مجموعات بيانات متعددة. علاوة على ذلك، عند استخدامه كإطار للتدريب المسبق، تفوق PPT على الطرق الأخرى للتدريب المسبق من حيث جودة التمثيل، وحقق أداءً متميزًا على مستوى الحالة الحالية في أكثر من عشرة مهام تطبيقية مختلفة، تغطي سيناريوهات ثلاثية الأبعاد داخلية وخارجية.