HyperAIHyperAI
منذ 2 أشهر

اتبع القواعد: الاستدلال للكشف عن الشذوذ في الفيديو باستخدام النماذج اللغوية الكبيرة

Yuchen Yang; Kwonjoon Lee; Behzad Dariush; Yinzhi Cao; Shao-Yuan Lo
اتبع القواعد: الاستدلال للكشف عن الشذوذ في الفيديو باستخدام النماذج اللغوية الكبيرة
الملخص

اكتشاف الشذوذ في الفيديو (VAD) يعد حاسمًا للتطبيقات مثل المراقبة الأمنية والقيادة الذاتية. ومع ذلك، فإن الطرق الحالية لا تقدم الكثير من التبريرات وراء الاكتشاف، مما يعيق الثقة العامة في التطبيقات العملية. في هذا البحث، نتناول VAD بإطار عمل يستند إلى المنطق. رغم أن النماذج اللغوية الكبيرة (LLMs) أظهرت قدرة ثورية على المنطق، إلا أننا نجد أن استخدامها المباشر يفتقر إلى فعالية VAD. بعين الخصوص، المعرفة الضمنية التي تم تدريبها مسبقًا في LLMs تركز على السياق العام وقد لا تنطبق على كل سيناريو محدد من سيناريوهات VAD في العالم الحقيقي، مما يؤدي إلى عدم المرونة وعدم الدقة. لحل هذه المشكلة، نقترح AnomalyRuler، وهو إطار عمل جديد يستند إلى القواعد للمنطق مع LLMs. يتكون AnomalyRuler من مرحلتين رئيسيتين: الاستقراء والاستنتاج. في مرحلة الاستقراء، يتم إدخال عينات قليلة من المرجعيات الطبيعية إلى النموذج اللغوي الكبير ثم يقوم بتلخيص هذه الأنماط الطبيعية لإنشاء مجموعة من القواعد لاكتشاف الشذوذ. تتبع مرحلة الاستنتاج القواعد المستخرجة لاكتشاف الإطارات الشاذة في مقاطع الفيديو الاختبارية. بالإضافة إلى ذلك، صممنا استراتيجيات لتجميع القواعد وتخفيف الإدراك والمنطق المتين لتعزيز متانة AnomalyRuler بشكل أكبر. يعتبر AnomalyRuler أول نهج يستند إلى المنطق للمهمة ذات الفئة الواحدة في VAD، والتي تتطلب فقط إرشادات قليلة من العينات الطبيعية دون الحاجة إلى التدريب الكامل، مما يتيح التكيف السريع مع مختلف سيناريوهات VAD. تثبت التجارب الشاملة عبر أربع معايير لـ VAD أداء اكتشاف AnomalyRuler الرائد وقدرته على المنطق. يتم توفير كود مصدر AnomalyRuler بشكل مفتوح ويمكن الوصول إليه عبر الرابط التالي: https://github.com/Yuchen413/AnomalyRuler