HyperAIHyperAI
منذ 2 أشهر

الشبكات التكرارية المتكررة على المدى الطويل للتمييز البصري والوصف

Jeff Donahue; Lisa Anne Hendricks; Marcus Rohrbach; Subhashini Venugopalan; Sergio Guadarrama; Kate Saenko; Trevor Darrell
الشبكات التكرارية المتكررة على المدى الطويل للتمييز البصري والوصف
الملخص

النماذج المستندة إلى الشبكات التلافيفية العميقة قد سيطرت على مهام تفسير الصور في السنوات الأخيرة؛ نحن ندرس ما إذا كانت النماذج التي تكون متكررة أيضًا، أو "عميقة زمنيًا"، فعالة في المهام التي تتضمن سلاسل زمنية، سواء كانت بصرية أم غيرها. قمنا بتطوير هندسة تلافيفية متكررة جديدة مناسبة للتعلم البصري على نطاق واسع والتي يمكن تدريبها من البداية إلى النهاية، وأظهرنا قيمة هذه النماذج في مهام التعرف على الفيديو المرجعية، مشكلات وصف واسترجاع الصور، وتحديات رواية الفيديو. على عكس النماذج الحالية التي تفترض وجود حقل استقبال ثابت الزمان والمكان أو متوسط زمني بسيط للمعالجة المتسلسلة، فإن النماذج التلافيفية المتكررة "مُزدوجة العمق" في أنها يمكن أن تكون تركيبية في طبقات الزمان والمكان. قد يكون لهذه النماذج مزايا عندما تكون المفاهيم المستهدفة معقدة و/أو بيانات التدريب محدودة. يمكن تحقيق تعلم الارتباطات طويلة الأجل عند دمج الدوال اللاخطية في تحديثات حالة الشبكة. تعتبر نماذج RNN طويلة الأجل جاذبة لأنها可以直接映射可变长度的输入(例如,视频帧)到可变长度的输出(例如,自然语言文本),并能建模复杂的时态动态;然而,它们可以通过反向传播进行优化。我们的长期内部循环模型直接连接到现代视觉卷积网络模型,并可以联合训练以同时学习时间动态和卷积感知表示。我们的结果表明,这种模型在识别或生成任务中具有明显的优势,这些任务要么单独定义,要么单独优化。请注意,在最后一段中有一句中文被误插入了英文文本中。以下是修正后的阿拉伯语翻译:نماذج RNN طويلة الأجل جاذبة لأنها يمكن أن تربط مباشرة بين المدخلات ذات الطول المتغير (مثل إطارات الفيديو) والمخرجات ذات الطول المتغير (مثل النصوص اللغوية الطبيعية) ويمكنها أن تمثل الديناميكيات الزمنية المعقدة؛ ومع ذلك، يمكن تحسينها باستخدام الانحدار الخلفي. نموذجوتنا طويلي الأجل المتكررين متصلان مباشرة بنماذج الشبكات التلافيفية البصرية الحديثة ويمكن تدريبهما بشكل مشترك لتعلم الديناميكيات الزمنية والتمثيلات الإدراكية التلافيفية في آن واحد. أظهرت نتائجنا أن مثل هذه النماذج لديها مزايا واضحة على أفضل النماذج الحالية للمهام التي يتم تعريفها و/أو تحسينها بشكل منفصل، مثل المهام المتعلقة بالتعرف أو الجيل.希望这能帮助您!如果有任何其他问题,请随时告诉我。