تعزيز التعلم الصوتي-البصري بدون أمثلة باستخدام نماذج اللغة الكبيرة

يهدف التعلم الصوتي-بصري بدون نماذج مسبقة (Zero-Shot Learning) إلى التعرف على فئات غير مشاهدة من قبل بناءً على تسلسلات صوتية-بصرية مترابطة. تركز الطرق الحديثة بشكل أساسي على تعلم الخصائص متعددة الوسائط المنسجمة مع أسماء الفئات لتعزيز قدرة التعميم إلى فئات غير مشاهدة. ومع ذلك، فإن هذه النهج تتجاهل المفاهيم الحدث الغامضة في أسماء الفئات وقد تدخل بنيان شبكات معقدة ذات أهداف تدريب صعبة لا محالة. في هذا البحث، نقدم إطارًا بسيطًا ولكنه فعال يُدعى التعلم الصوتي-بصري المعزز بالمعرفة (KDA)، والذي يساعد النموذج على تعلم محتوى الأحداث الجديدة بشكل أكثر فعالية من خلال الاستفادة من قاعدة بيانات خارجية للمعرفة. تحديدًا، نقترح أولاً استخدام المعرفة الموجودة في النماذج اللغوية الكبيرة (LLMs) لتوليد العديد من الجمل الوصفية التي تتضمن الخصائص الصوتية-البصرية الهامة والمميزة لفئات الأحداث، مما يساعد في فهم أفضل للفئات غير المشاهدة. بالإضافة إلى ذلك، نقترح خسارة هوامش متكيفة واعية بالمعرفة (Knowledge-Aware Adaptive Margin Loss) للمساعدة في تمييز الأحداث المشابهة، مما يعزز بشكل أكبر قدرة التعميم نحو الفئات غير المشاهدة. تظهر النتائج التجريبية الشاملة أن الإطار المقترح KDA يمكنه تحقيق أداء أفضل من الطرق الرائدة في ثلاثة مجموعات بيانات شهيرة للتعلم الصوتي-بصري بدون نماذج مسبقة. سيتم توفير كودنا في \url{https://github.com/chenhaoxing/KDA}.