HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج التماسك الثنائي: تعلّم التمثيلات من خلال تشجيع كلا الشبكتين على نمذجة المُدخل

Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada Kunio Kashino

الملخص

نموذج الترميز المقنع (Masked Autoencoders) هو طريقة بسيطة ولكنها قوية للتعلم الذاتي التلقائي. ومع ذلك، فإنها تتعلم التمثيلات بشكل غير مباشر من خلال إعادة بناء اللوحات المُقنعة من المدخلات. وقد طُوّرت عدة طرق لتعلم التمثيلات بشكل مباشر من خلال التنبؤ بتمثيلات اللوحات المُقنعة؛ لكننا نعتقد أن استخدام جميع اللوحات لاستخلاص إشارات التدريب للتمثيلات غير مثالي. ولذلك نقترح طريقة جديدة تُسمى "نمذجة الترميز المزدوج" (Masked Modeling Duo - M2D)، التي تتعلم التمثيلات بشكل مباشر مع استخلاص إشارات التدريب باستخدام فقط اللوحات المُقنعة. في نموذج M2D، يقوم الشبكة المباشرة (online network) بتمثيل اللوحات الظاهرة والتنبؤ بتمثيلات اللوحات المُقنعة، بينما تقوم الشبكة الهدف (target network)، وهي شبكة مشتقة من التشفير التراكمي (momentum encoder)، بتمثيل اللوحات المُقنعة. ولتحسين التنبؤ بتمثيلات الهدف، يجب أن تُمثّل الشبكة المباشرة المدخلات بشكل جيد، كما يجب أن تمثل الشبكة الهدف المدخلات بشكل جيد لتتفق مع تنبؤات الشبكة المباشرة. وبهذا، يجب أن تصبح التمثيلات المُكتسبة أكثر قدرة على تمثيل المدخلات بدقة. وقد تم التحقق من أداء M2D من خلال تعلّم تمثيلات صوتية عامة، حيث حقق M2D أداءً جديدًا في أفضل المستويات على مهام مثل UrbanSound8K وVoxCeleb1 وAudioSet20K وGTZAN وSpeechCommandsV2. كما تم التحقق من فعالية M2D في مجال الصور باستخدام ImageNet-1K في الملاحق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp