HyperAIHyperAI
منذ 2 أشهر

LITA: مساعد التحديد الزمني الموجه باللغة

De-An Huang; Shijia Liao; Subhashree Radhakrishnan; Hongxu Yin; Pavlo Molchanov; Zhiding Yu; Jan Kautz
LITA: مساعد التحديد الزمني الموجه باللغة
الملخص

شهدت النماذج اللغوية الكبيرة متعددة الوسائط تقدماً كبيراً. وقد أضافت الدراسات الحديثة هذه النماذج إلى مدخلات الفيديو مع قدرات واعدة في اتباع التعليمات. ومع ذلك، فإن جزءًا مهمًا مفقود هو التحديد الزمني. لا تستطيع هذه النماذج الإجابة بدقة على أسئلة "متى؟". نحدد ثلاثة جوانب رئيسية تحد من قدراتها على التحديد الزمني: (i) تمثيل الوقت، (ii) الهندسة المعمارية، و (iii) البيانات. نعالج هذه النقاط الضعيفة من خلال اقتراح مساعد التحديد الزمني الموجه باللغة (LITA) مع الميزات التالية: (1) نقدم رموز الوقت التي ترمّز الأوقات الزمنية النسبية لطول الفيديو لتمثيل الوقت بشكل أفضل في الفيديوهات. (2) نقدم رموز SlowFast في الهندسة المعمارية لالتقاط المعلومات الزمنية بدقة زمنية دقيقة. (3) نركز على بيانات التحديد الزمني لمُساعِد LITA. بالإضافة إلى الاستفادة من مجموعات البيانات الفيديوية الموجودة التي تحتوي على زمنيات، نقترح مهمة جديدة هي تحديد الزمن بالاستدلال (RTL)، ومجموعة بيانات ActivityNet-RTL للتعلم وتقييم هذه المهمة. يتطلب تحديد الزمن بالاستدلال كل من الاستدلال والتحديد الزمني لنماذج الفيديو اللغوية الكبيرة. يظهر LITA أداءً قوياً在这项具有挑战性的任务上,几乎将基线模型的时间平均交并比(mIoU)翻倍。此外,我们还证明了我们对时间定位的重视也显著提高了基于视频的文本生成能力,与现有的视频语言模型相比,时间理解能力相对提高了36%。代码可在以下网址获取:https://github.com/NVlabs/LITA注:在最后一段中,“在这项具有挑战性的任务上”和“时间平均交并比(mIoU)”以及“时间理解能力”这几个短语没有直接对应的阿拉伯语术语,因此保留了中文表述。为了更好地适应阿拉伯语读者的习惯,建议将这些短语翻译如下:(1) "在这项具有挑战性的任务上" 可以翻译为 "في هذا المهمة الصعبة".(2) "时间平均交并比(mIoU)" 可以翻译为 "متوسط تقاطع الاتحاد الزمني (mIoU)".(3) "时间理解能力" 可以翻译为 "فهم الزمان".根据这些建议,最终翻译版本如下:مساعد LITA يظهر أداءً قوياً في هذه المهمة الصعبة، حيث يكاد يضاعف متوسط تقاطع الاتحاد الزمني (mIoU) للنماذج الأساسية. بالإضافة إلى ذلك، أظهرنا أن تركيزنا على التحديد الزمني يحسن بشكل كبير إنتاج النصوص القائم على الفيديو مقارنة بالنماذج اللغوية الكبيرة الفيديوية الحالية، بما في ذلك تحسين بنسبة 36% في فهم الزمان.الكود متاح عبر الرابط التالي: https://github.com/NVlabs/LITA

LITA: مساعد التحديد الزمني الموجه باللغة | أحدث الأوراق البحثية | HyperAI