HyperAIHyperAI
منذ 11 أيام

نموذج التماسك الثنائي: تعلّم التمثيلات من خلال تشجيع كلا الشبكتين على نمذجة المُدخل

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino
نموذج التماسك الثنائي: تعلّم التمثيلات من خلال تشجيع كلا الشبكتين على نمذجة المُدخل
الملخص

نموذج الترميز المقنع (Masked Autoencoders) هو طريقة بسيطة ولكنها قوية للتعلم الذاتي التلقائي. ومع ذلك، فإنها تتعلم التمثيلات بشكل غير مباشر من خلال إعادة بناء اللوحات المُقنعة من المدخلات. وقد طُوّرت عدة طرق لتعلم التمثيلات بشكل مباشر من خلال التنبؤ بتمثيلات اللوحات المُقنعة؛ لكننا نعتقد أن استخدام جميع اللوحات لاستخلاص إشارات التدريب للتمثيلات غير مثالي. ولذلك نقترح طريقة جديدة تُسمى "نمذجة الترميز المزدوج" (Masked Modeling Duo - M2D)، التي تتعلم التمثيلات بشكل مباشر مع استخلاص إشارات التدريب باستخدام فقط اللوحات المُقنعة. في نموذج M2D، يقوم الشبكة المباشرة (online network) بتمثيل اللوحات الظاهرة والتنبؤ بتمثيلات اللوحات المُقنعة، بينما تقوم الشبكة الهدف (target network)، وهي شبكة مشتقة من التشفير التراكمي (momentum encoder)، بتمثيل اللوحات المُقنعة. ولتحسين التنبؤ بتمثيلات الهدف، يجب أن تُمثّل الشبكة المباشرة المدخلات بشكل جيد، كما يجب أن تمثل الشبكة الهدف المدخلات بشكل جيد لتتفق مع تنبؤات الشبكة المباشرة. وبهذا، يجب أن تصبح التمثيلات المُكتسبة أكثر قدرة على تمثيل المدخلات بدقة. وقد تم التحقق من أداء M2D من خلال تعلّم تمثيلات صوتية عامة، حيث حقق M2D أداءً جديدًا في أفضل المستويات على مهام مثل UrbanSound8K وVoxCeleb1 وAudioSet20K وGTZAN وSpeechCommandsV2. كما تم التحقق من فعالية M2D في مجال الصور باستخدام ImageNet-1K في الملاحق.

نموذج التماسك الثنائي: تعلّم التمثيلات من خلال تشجيع كلا الشبكتين على نمذجة المُدخل | أحدث الأوراق البحثية | HyperAI