إليسيوم: استكشاف الإدراك على مستوى الكائنات في الفيديوهات عبر النماذج اللغوية المتعددة المستويات

أثبتت نماذج اللغات الكبيرة متعددة الأوضاع (MLLMs) قدرتها على تمييز الأشياء في الصور الثابتة، ولكن تطبيقها في المهام المتعلقة بالفيديو، مثل تتبع الأشياء، لا يزال قليل الدراسة. يعود هذا النقص في الاستكشاف بشكل أساسي إلى تحديين رئيسيين. أولاً، يتطلب التدريب الواسع على مجموعات بيانات الفيديو الكبيرة تزويد MLLMs بالقدرة على تمييز الأشياء عبر الإطارات المتعددة وفهم العلاقات بين الإطارات. ثانياً، يمكن أن يفرض معالجة عدد كبير من الإطارات داخل نافذة السياق لنماذج اللغات الكبيرة (LLMs) عبءًا حسابيًا كبيرًا. لمواجهة التحدي الأول، نقدم ElysiumTrack-1M، وهو مجموعة بيانات الفيديو الكبيرة التي تدعم ثلاث مهام: تتبع الشيء الواحد (SOT)، وتتبع الشيء الواحد بالإشارة إليه (RSOT)، وتكوين التعبيرات المرجعية في الفيديو (Video-REG). تحتوي ElysiumTrack-1M على 1.27 مليون إطار فيديو مشروح مع صناديق الأشياء والوصف المقابل لها. باستغلال هذه المجموعة البيانات، نقوم بتدريب MLLMs ونقترح نموذج ضغط الرموز T-Selector للتعامل مع التحدي الثاني. نهجنا المقترح، Elysium: استكشاف الإدراك على مستوى الشيء في الفيديوهات عبر MLLM، هو نموذج LLM قابل للتدريب من البداية إلى النهاية يحاول تنفيذ مهام على مستوى الشيء في الفيديوهات دون الحاجة إلى أي إضافات أو نماذج خبراء إضافية. جميع الأكواد والمجموعات البيانات متاحة على https://github.com/Hon-Wong/Elysium.