HyperAIHyperAI
منذ 2 أشهر

ST-LLM: النماذج اللغوية الكبيرة فعالة في التعلم الزمني

Ruyang Liu; Chen Li; Haoran Tang; Yixiao Ge; Ying Shan; Ge Li
ST-LLM: النماذج اللغوية الكبيرة فعالة في التعلم الزمني
الملخص

أظهرت نماذج اللغات الكبيرة (LLMs) قدرات مثيرة للإعجاب في فهم وإنشاء النصوص، مما دفع الجهود البحثية نحو تطوير نماذج لغوية فيديو لتسهيل التفاعل بين الإنسان والذكاء الاصطناعي على مستوى الفيديو. ومع ذلك، فإن كيفية ترميز وفهم الفيديوهات بشكل فعال في أنظمة الحوار القائمة على الفيديو لا تزال مشكلة غير محلولة. في هذا البحث، ندرس سؤالًا بسيطًا ولكنه لم يتم استكشافه بعد: هل يمكننا إدخال جميع الرموز المكانية-الزمانية إلى نموذج اللغة الكبير (LLM)، وبالتالي تفويض مهمة نمذجة سلسلة الفيديو إلى هذه النماذج؟ بشكل مفاجئ، ينتج عن هذا الأسلوب البسيط تحسينات كبيرة في فهم الفيديو. بناءً على هذا، نقترح ST-LLM، وهو أساس فعال لنماذج اللغات الكبيرة القائمة على الفيديو مع نمذجة السلسلة المكانية-الزمانية داخل LLM. بالإضافة إلى ذلك، لمعالجة المشكلات المتعلقة بالتكاليف الزائدة والاستقرار التي تنشأ من الرموز الفيديوية الغير مضغوطة داخل LLMs، طورنا استراتيجية قناع ديناميكي مع أهداف تدريب مصممة خصيصًا. بالنسبة للفيديوهات الطويلة جدًا، قدمنا أيضًا وحدة إدخال عالمية-محليّة لموازنة الكفاءة والفعالية. وبذلك، نستفيد من LLM لتحقيق النمذجة المكانية-الزمانية بكفاءة عالية بينما نحافظ على الكفاءة والاستقرار. تؤكد النتائج التجريبية الواسعة على فعالية طريقتنا. من خلال استخدام نموذج وأداة تدريب أكثر اختصارًا، حقق ST-LLM أفضل نتيجة جديدة على مقاييس VideoChatGPT-Bench و MVBench. يمكن الوصول إلى الشفرات البرمجية عبر الرابط https://github.com/TencentARC/ST-LLM.

ST-LLM: النماذج اللغوية الكبيرة فعالة في التعلم الزمني | أحدث الأوراق البحثية | HyperAI