HyperAIHyperAI

Command Palette

Search for a command to run...

تعزيز التعلم الصوتي-البصري بدون أمثلة باستخدام نماذج اللغة الكبيرة

Haoxing Chen Yaohui Li Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu Jun Lan Huijia Zhu Weiqiang Wang

الملخص

يهدف التعلم الصوتي-بصري بدون نماذج مسبقة (Zero-Shot Learning) إلى التعرف على فئات غير مشاهدة من قبل بناءً على تسلسلات صوتية-بصرية مترابطة. تركز الطرق الحديثة بشكل أساسي على تعلم الخصائص متعددة الوسائط المنسجمة مع أسماء الفئات لتعزيز قدرة التعميم إلى فئات غير مشاهدة. ومع ذلك، فإن هذه النهج تتجاهل المفاهيم الحدث الغامضة في أسماء الفئات وقد تدخل بنيان شبكات معقدة ذات أهداف تدريب صعبة لا محالة. في هذا البحث، نقدم إطارًا بسيطًا ولكنه فعال يُدعى التعلم الصوتي-بصري المعزز بالمعرفة (KDA)، والذي يساعد النموذج على تعلم محتوى الأحداث الجديدة بشكل أكثر فعالية من خلال الاستفادة من قاعدة بيانات خارجية للمعرفة. تحديدًا، نقترح أولاً استخدام المعرفة الموجودة في النماذج اللغوية الكبيرة (LLMs) لتوليد العديد من الجمل الوصفية التي تتضمن الخصائص الصوتية-البصرية الهامة والمميزة لفئات الأحداث، مما يساعد في فهم أفضل للفئات غير المشاهدة. بالإضافة إلى ذلك، نقترح خسارة هوامش متكيفة واعية بالمعرفة (Knowledge-Aware Adaptive Margin Loss) للمساعدة في تمييز الأحداث المشابهة، مما يعزز بشكل أكبر قدرة التعميم نحو الفئات غير المشاهدة. تظهر النتائج التجريبية الشاملة أن الإطار المقترح KDA يمكنه تحقيق أداء أفضل من الطرق الرائدة في ثلاثة مجموعات بيانات شهيرة للتعلم الصوتي-بصري بدون نماذج مسبقة. سيتم توفير كودنا في \url{https://github.com/chenhaoxing/KDA}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp