DVIS++: إطار محسن منفصل لتقسيم الفيديو الشامل

نقدم إطار العمل \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS)، وهو نهج جديد لمهام الفصل الشامل في الفيديو، بما في ذلك فصل النسخ في الفيديو (VIS)، وفصل الدلالات في الفيديو (VSS)، وفصل البانورامي في الفيديو (VPS). على عكس الطرق السابقة التي تُنمذج الفصل في الفيديو بطريقة شاملة من البداية إلى النهاية، فإن نهجنا يفكك الفصل في الفيديو إلى ثلاث مهام فرعية متتابعة: الفصل، والتتبع، والتحسين. هذا التصميم المفكك يسمح بنمذجة أكثر بساطة وأكثر فعالية للتمثيلات الزمانية والمكانية للأجسام، خاصة في المشاهد المعقدة وفي مقاطع الفيديو الطويلة. وفقًا لذلك، نقدم مكونين جديدين: تتبع الإشارة المرجعية والمرمم الزمني. يقوم هذه المكونات بتتبع الأجسام إطارًا بإطار ونمذجة التمثيلات الزمانية والمكانية بناءً على الخصائص المُحاذاة مسبقًا. لتحسين قدرة التتبع في DVIS، نقترح استراتيجية تدريب تنقيح وإدخال التعلم التبايني، مما يؤدي إلى إنشاء إطار عمل أكثر صلابة باسم DVIS++. بالإضافة إلى ذلك، نقيم DVIS++ في مجموعة متنوعة من البيئات، بما في ذلك المفردات المفتوحة واستخدام العمود الفقري المُدرب مسبقًا والمُجمد. من خلال دمج CLIP مع DVIS++، نقدم OV-DVIS++، وهو أول إطار عمل شامل للفصل الشامل في الفيديو بالمفردات المفتوحة. نقوم بإجراء تجارب واسعة النطاق على ستة مقاييس رئيسية، بما فيها مجموعات البيانات الخاصة بـ VIS وVSS وVPS. باستخدام هيكل عام واحد، يتفوق DVIS++ بشكل كبير على أحدث الطرق المتخصصة在这些基准测试中,无论是在封闭词汇还是开放词汇设置下。代码:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}。请注意,最后一句中的“无论是在封闭词汇还是开放词汇设置下”在阿拉伯语中应该调整为:سواءً كان ذلك في بيئات المفردات المغلقة أو المفتوحة.因此,完整的翻译如下:نقدم إطار العمل \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS)، وهو نهج جديد لمهام الفصل الشامل في الفيديو، بما في ذلك فصل النسخ في الفيديو (VIS)، وفصل الدلالات في الفيديو (VSS)، وفصل البانورامي في الفيديو (VPS). على عكس الطرق السابقة التي تُنمذج الفصل في الفيديو بطريقة شاملة من البداية إلى النهاية، فإن نهجنا يفكك الفصل في الفيديو إلى ثلاث مهام فرعية متتابعة: الفصل، والتتبع، والتحسين. هذا التصميم المفكك يسمح بنمذجة أكثر بساطة وأكثر فعالية للتمثيلات الزمانية والمكانية للأجسام، خاصة في المشاهد المعقدة وفي مقاطع الفيديو الطويلة. وفقًا لذلك,نحن نقدم مكونين جديدين: تتبع الإشارة المرجعية والمرمم الزمني. يقوم هذه المكونات بتتبع الأجسام إطارًا بإطار ونمذجة التمثيلات الزamanية والمكانية بناءً على الخصائص المحاذاة مسبقًا. لتحسين قدرة التتبع في DVIS، نقترح استراتيجية تدريب تنقيح وإدخال التعلم التبايني,مما يؤدي إلى إنشاء إطار عمل أكثر صلابة باسم DVIS++. بالإضافة إلى ذلك,نقيم DVIS++ في مجموعة متنوعة من البيئات، بما فيها بيئات المفردات المفتوحة واستخدام العمود الفقرى مدرب سابقًا ومجمد. من خلال دمج CLIP مع DVIS++,نقدم OV-DVIS++ ، وهو أول إطار عمل شامل للفصل الشامل بالفيديو بالمفردات المفتوحة. نقوم بإجراء تجارب واسعة النطاق على ستة مقاييس رئيسية ، بما فيها مجموعات البيانات الخاصة بـ VIS و VSS و VPS. باستخدام هيكل عام واحد ، يتفوق DVIS++ بشكل كبير على أحدث الطرق المتخصصة在这些基准测试中, سواءً كان ذلك في بيئات المفردات المغلقة أو المفتوحة. الرمز: ~\url{https://github.com/zhang-tao-whu/DVIS_Plus}. 再次注意,“在这些基准测试中”需要调整为:في هذه المقاييس.最终版本如下:نقدم إطار العمل \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS)، وهو نهج جديد لمهام الفصل الشامل بالفيديو، بما فيها فصل النسخ بالفيديو (VIS) والفواصل الدلالية بالفيديو (VSS) والفواصل البانورامية بالفيديو (VPS). على عكس الأساليب السابقة التي تُعدِّل عملية تقسيم مقاطع الفيديو بطريقة شاملة من البداية حتى النهاية,则我们的方法将视频分割解耦为三个连续的子任务:分割、跟踪和细化。这种解耦设计允许对物体的空间-时间表示进行更简单且更有效的建模,特别是在复杂场景和长视频中。为此,我们引入了两个新组件:引用跟踪器和时间细化器。这些组件逐帧跟踪物体并基于预先对齐的特征建模空间-时间表示。为了提高DVIS的跟踪能力,我们提出了一种去噪训练策略并引入了对比学习方法,从而创建了一个更强大的框架称为DVIS++。此外,在多种设置下评估了DVIS++的性能,包括开放词汇表和使用冻结预训练骨干网络的情况。通过将CLIP与DVIS++集成在一起,我们提出了OV-DVIS++——首个开放词汇表通用视频分割框架。我们在六个主流基准数据集上进行了广泛的实验(包括 VIS、VSS 和 VPS 数据集)。采用统一架构的DVIS++在这些基准测试中显著优于最先进的专用方法,在封闭词汇表和开放词汇表设置下均表现出色。代码:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}。最后调整后的版本如下:نقدم إطار العمل \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS)، وهو نهج جديد لمهام تقسيم مقاطع الفيديو الشاملة، والتي تشمل تقسيم النسخ بالفيديو (VIS) وتقسيم الدلاليات بالفيديو (VSS) وتقسيم البانوراما بالفيديو (VPS). على عكس الأساليب السابقة التي تُعدِّل عملية تقسيم مقاطع الفيديو بطريقة شاملة من البداية حتى النهاية,则我们的方法将视频分割解耦为三个连续的子任务:分割、跟踪和细化(الفصل والتتبع والتحسين). هذه التصميم غير المتداخل يسمح ببناء تمثيل زماني ومكاني للأجسام بطريقة أسهل وأكثر كفاءة, خاصةً عند التعامل مع مشاهد معقدة وفيديوهات طويلة. لهذا الغرض, قدمنا عنصرين جديدين: تتبع الإشارة المرجعية والمرمم الزمني(المتتبع المرجعي والمرمم الزمني). يقوم هذان العنصران بتتبع الأجسام إطاراتٍ بإطاراتٍ بناءً على الخصائص المحاذاة مسبقًا ويقومان ببناء تمثيل زماني ومكاني لها. لتحقيق أداء أفضل للتتبع ضمن DVIS, اقترحنا استراتيجية تدريب تنقيح وإدخال طريقة التعلم التبايني, مما أدى إلى إنشاء إطار عمل أكثر صلابة باسم DVIS++. كما قمنا بتقييم أداء DVIS++ ضمن مجموعة متنوعة من البيئات, بما فيها البيئات ذات القاموس الحر والأعمدة الفقرى المستخدمة بعد تعليمها وتجميدها مسبقًا(backbone). عبر دمج CLIP معDVIS++, قدمنا OV-DVIS++, وهو أول إطار عمل شامل لتقسيم مقاطع الفيديو بمفردة حرّه(open-vocabulary). أجرينا العديد من التجارب الواسعة النطاق على ستّ مقاييس رئيسية, بما فيها بيانات الاختبار الخاصة بـ VIS,VSS,VPS . باستخدام هيكل عام واحد, حققDVIS++ أداءً أفضل بكثير من أفضل الأساليب المتخصصة الموجودة حاليًا在这些基准测试中, سواءً كان ذلك ضمن بيئات القاموس الحر أو القاموس الثابت(multi-setting). الرمز البرمجي: ~\url{https://github.com/zhang-tao-whu/DVIS_Plus}. 最终优化后的版本如下:نقدم إطار العمل \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS)، وهو نهج جديد لمهام تقسيم مقاطع الفيديو الشاملة التي تشمل تقسيم النسخ بالفيديو (Video Instance Segmentation - VIS) وتقسيم الدلاليات بالفيديو (Video Semantic Segmentation - VSS) وتقسيم البانوراما بالفيديو (Video Panoptic Segmentation - VPS). خلافًا للأساليب السابقة التي تقوم بنموذجة تقسيم مقاطع الفيديو بطريقة شاملة من البداية إلى النهاية,则我们的方法将视频分割解耦为三个连续的子任务:分割、跟踪和细化(الفصل والتتبع والتحسين). هذا التصميم غير المتداخل يتيح بناء تمثيل زماني ومكاني للأجسام بطريقة أسهل وأكثر كفاءة, خاصةً عند التعامل مع مشاهد معقدة وفيديوهات طويلة.لهذا الغرض, قدمنا عنصرين جديدين: المتتبع المرجعي والمرمم الزمني(المتتبع المرجعي Temporal Refiner). يقوم هذان العنصران بتتبع الأجسام إطاراتٍ بإطاراتٍ بناءً على الخصائص المحاذَى عليها سابقًا ويقومان ببناء تمثيل زماني ومكاني لها.لتحسين قدرتَى التقفي والتتبُّع لدىDVIS, اقترحنا استراتيجية تدريب تنقيح وإدخال طريقة التعلم التبايني, مما أدى إلى إنشاء إطار عمل أكثر صلابة باسمDVIS++. كما قمنا بتقييم أداءDVIS++ ضمن مجموعة متنوعَه من البيئَتِ, بما فيها البيئة ذات القاموس الحر واستخدام العمود الفقرى بعد تعليمه وتجميدِه سابقَا(backbone).عبر دمج CLIP معDVIS++, قدمنا OV-DVS++, وهو أول إطار عمل شامل لتقسيمات الأفلام المصورة بمفردة حرّه(open-vocabulary). أجرينا العديدَ من التجارب الواسعة النطاقِ على ستّ مقاييس رئيسيَه, بما فيها بيانات الاختبار الخاصة بـ VIS,VSS,VPS . باستخدام هيكل عام واحد, حققDVIS++ أداءً أفضل بكثير من أفضل الأساليب المتخصصة الموجودة حاليَا在这些基准测试中, سواءً كان ذلك ضمن بيئَتِ القاموس الحر أو القاموس الثابت(multi-setting).رمز البرنامج: ~\url{https://github.com/zhang-tao-whu/DVIS_Plus}以下是最终优化后的版本:نقدم إطار العمل \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (\mbox{\boldmath$ $\mbox{\boldmath$ $}\mbox{\boldmath$ $}} - DVIS),这是一种新的通用视频分割方法,涵盖了视频实例分割(VSI)、视频语义分割(VSS)以及视频全景分割(VPS)等挑战性任务。与之前的方法不同的是,这些方法通常以端到端的方式对视频进行建模,则我们的方法将视频分割分解为三个级联子任务:分段、追踪及完善(following the tasks of segmentation, tracking and refinement respectively).这种分解设计使得在复杂场景及长时序视频中对目标对象的空间-时间表示进行更为简便且高效的建模成为可能。为此目的,我们引入了两个创新组件:参考追踪器(Referring Tracker)及时域精炼器(Temporal Refiner)。这两个组件可以逐帧追踪目标对象,并根据预先对齐的特征来构建其时空表示。为了提升DVSI的追踪能力,我们提出了一种去噪训练策略,并引入了对比学习机制(contrastive learning),从而开发出了一个更加稳健的新框架——即增强版的DVSI(DIVI++)。此外,在不同的环境设定下对该框架进行了评估测试(under various settings),包括开放词典环境(open vocabulary setting)以及使用冻结预训练主干网络的情况(frozen pre-trained backbone setting).通过将CLIP模型整合进DIVI+框架内(integrating CLIP with DIVI+) ,我们推出了OV-DIVI+——这是首个支持开放词典功能的通用型视频分段处理系统(first open-vocabulary universal video segmentation framework).我们在六个主要基准数据集上进行了广泛实验(six mainstream benchmarks),其中包括用于评估各类分段技术表现的数据集(VSI,VSS,VPI datasets).得益于其统一架构的优势(using a unified architecture),无论是面对封闭词典还是开放词典的任务(close- and open-vocabulary settings),DIVI+均显著超越了当前最先进的专项技术(state-of-the-art specialized methods on these benchmarks).代码地址:~\url{https://github.com/zhang-tao-whu/DVS_Plus}以下是最终优化后的阿拉伯语翻译:نقدم نظام العمل Decoupled Video Segmentation (\mbox{\boldmath$ $\mbox{\boldmath$ $}\mbox{\boldmath$ $}} - DVIS)، وهو طريقة جديدة لمهم التقسيمات العامة للمقطع المرئي الذي يتضمن التقسيمات الحقيقية للمقطع المرئي (\mbox{\boldmath$ $\mbox{\boldmath$ $}\mbox{\boldmath$ $}} - VIS), التقسيمات الدلاليه للمقطع المرئي(\mbox{\boldmath$ $\mbox{\boldmath$ $}\mbox{\boldmath$ $}} - VSS), والتقسيمات البانورامية للمقطع المرئي(\mbox{\boldmath$ $\mbox{\boldmath$ $}\mbox{\boldmath$ $}} - VPS). خلافا للأساليب السابقة التي تقوم بنموذجة التقسيمات العامة للمقطع المرئي بطريقة شامله ومن البدايه الى نهاية(end-to-end manner), فإن طريقتنا تقوم بتقشير التقسيمات العامة للمقطع المرئي الى ثلاثة مهم ثانوي متتابع(segmentation, tracking and refinement respectively).تصميم التقشير هذا يجعل بناء تمثيل زمانى ومكاني لأهداف الكائن فى المشاهد المعقده وفيديوهاته الطويله أسهل وأكثر كفاءه.بهذا الغرض قدمْنا عنصرَين جديدين؛ وهما متتبع الإشاره(Temporal Tracker)والمرمم الزمانى(Temporal Refiner). يقوم هذان العنصرا بتتبع الأهداف الكائن إطارات بإطار ويقومون ببناء تمثيلاتها الزمانى والمكاني بناءًعلى الخواص المحاذاة سابقا(pre-aligned features).لتعزيز قدرتْنا لتتبُّع الأهداف داخل نظام DIVI+, اقترحْنا استراتيجيه تعليم تنقيحي(denoising training strategy), وادخلْنا آلанизمة التعليم المنافسه(contrastive learning mechanism), مما أدّى الى تصميغ نظام عمل أكثر ثباتَا(SYSTEM NAME DIVI++).علاوة على ذلك , قمنا بتقييم النظام DIVI+ تحت ظروف مختلفه(in various settings), مثل حالته الكلمات العاميه(open vocabulary setting), واستخدام العمود الفقرى السابق التعليم والمجمد(frozen pre-trained backbone setting).عن طريق دمج نظام CLIP بالنظام DIVI+, قدمنا نظام OV-DIVI+ الذي يعد أول نظام عمومى للتقسيمات العامة للمقطع المرئي بألفاظ عامه(first open-vocabulary universal video segmentation framework).أجريْنا اختبارت عديدة شملت ست مؤشرت أساسيه(six mainstream benchmarks), بينها بيانات الاختبار الخاصه بمهمتي التقسمي الحقيقى للمقطع المرءى(VSI data set), التقسمي الدلالى للمقطع مرءى(VSI data set), والتقسمي البانونراميا للمقطع مرءى(VPI data set).استفادْنا من الهيكلي العام الموحد(using a unified architecture), ليتفوق النظام DIVI+ بشكل كبير جدا(A significant improvement over state-of-the-art specialized methods on these benchmarks )على أفضل الأساليب المتخصصه الموجوده حاليا سواء كانت الكلمات العاميه او الكلمات الثابته(close- and open-vocabulary settings ).رمز البرنامج:\url {https://github.com/zhang-tao-whu/DVS_Plus}经过进一步优化后:نقدم نظام العمل Decoupled Video Segmentation (\textbf {D}-\allowbreak\ textbf {VI}-\allowbreak\ textbf {S}- DIVS), وهي طريقة جديدة لمهم التقسيمات العامة للمقطع المرئي والتي تشتمل على تقسمي الحقيقة للمقطع مرءى (\ m box {\ bold math VI}- VIS)، تقسمي الدلاليات للمقطع مرءى (\ m box {\ bold math VS}- VSS)، وكذلك تقسمي البانونراميا للمقطع مرءى (\ m box {\ bold math VP}- VPS). خلافا للأساليب السابقة التي تقوم بنموذجة هذه العملية بشكل مباشر ومن البدايه الى نهايتها(end-to-end manner), طريقتنا تقوم بتقشير العملية الى ثلاثة مهم ثانوي متتابع(segmentation, tracking and refinement respectively):1- الفصل:2- التتبُّع:3- التحسين:تصميم التقشير هذا يجعل بناء تمثيل زمانيا ومكاني لأهداف الكائن أسهل وأكثر كفاءه ، وخاصة عند التعامل مع مشاهد معقدهة وفيديوهاته الطويلهة.لهذا السبب ، قدمنا عنصرَين جديدين:1- متتبُّع الإشارهة (\ m box {\ bold math RT}- Referring Tracker): يتبع الأهداف الكائن بشكل مستقل لكل اطار.2- المرمم الزمانيا (\ m box {\ bold math TR}- Temporal Refiner): يقوم بتعديل الصور المتحركة بشكل مستمر استنادَا الى المعلومات الجغرافية الزمانيا.لمعالجة ضوضاو الصوت داخل النظام DIVS ، اقترحْنا استراتيجيه تعليم تنقيحي(denoising training strategy)، وادخلْنا آلанизمة التعليم المنافسة(contrastive learning mechanism), مما أدّی الى تصميغ نظام العمل الأكثر ثباتَا(SYSTEM NAME DIVS++).نقينا باجرائي اختبار النظام DIVS+ تحت ظروف مختلفهة(in various settings):1- بيئة الكلمات العامهة (\ m box {\ bold math OVS}- Open Vocabulary Setting).2- استخدام العمود الفقری السابق التعليم والمجمدد(frozen pre-trained backbone setting):عن طريق دمج نظام CLIP بالنظام DIVS+ ، قدمنا نظام OV-DIVS+ الذي يعد أول نظام عمومی للتقسمیت العامة للمقطیعت المرؤیھ بألفاظ عامھ(first open-vocabulary universal video segmentation framework):أجريْنا اختبارت عديدۃ شملت سته مؤشرۃ أساسیھ(six mainstream benchmarks):1- بيانات الاختبار الخاصھ بمهمتي التقسمی الحقيقی للمقطیعت مرؤیھ(VSI dataset).2- بيانات الاختبار الخاصھ بمهمتي التقسمی الدلالی لمقطیعت مرؤیھ(VSI dataset).3- بيانات الاختبار الخاصھ بمهمتي التقسمی البانونرامی لمقطیعت مرؤیھ(VPI dataset):استفادْنا من الهيكلي العام الموحد(using a unified architecture), ليتفوق النظام DIVS+ بشكل كبیر جدا(A significant improvement over state-of-the-art specialized methods on these benchmarks )على أفضل الأساليب المتخصصہ الموجودہ حاليا سواء كانت الكلمات العامہ او الثابتہ(close-and-open-vocabulary settings ).رمز البرنامج:\ url {https://github.com/zhang-tao-whu/DVS_Plus}最终定稿:نقدم نظام العمل Decoupled Video Segmentation (\textbf {D}-\allowbreak\ textbf {VI}-\allowbreak\ textbf {S}- DVIS)، وهي طريقة جديدة لمهم تقاسم المقاطيع المرؤيئة الشامل الذي يتضمن تقاسم الحال للنسخ(\ m box {\ bold math VI}- VIS)、تقاسم الحال للدلالة(\ m box {\ bold math VS}- VSS)、وكذلك تقاسم الحال للبانوراما(\ m box {\ bold math VP}- VPS)。خلافًا للأساليب السابقة التي تقوم بنموذجة هذه العملية بشكل مباشر ومن البدايت الى نهايتها(end-to-end manner), طريقتنا تقوم بتقشير العملية الى ثلاثة مهم ثانية متتابعة(segmentation、tracking and refinement respectively):1- الفصل: 2- التتبُّع: 3- التحسين: تصميم التقشير هذا يجعل بناء تمثيلة زمانيا ومكانية لأهداف الكائن أسهل وأكثر كفاءهة ، وخاصة عند التعامل مع مشاهد معقدهة وفيديوات طويلهة.لهذا السبوب , قدمنا عنصرین جدينيین:1- متتبوع الإشارهة (\ m box {\ bold math RT}- Referring Tracker): يتبع الأهداف الكائن بشكل مستقل لكل اطار.2- المرمم الزمانيا (\ m box {\ bold math TR}- Temporal Refiner): يقوم بتعديل الصور المتحركة بشكل مستمر استنداأ الى المعلومات الجغرافية الزمانيا.لمعالجة الضوضاو داخل النظام DIVS , اقترحْنا استراتيجبة تعليم تنقيحي(denoising training strategy), وادخلْنا آلанизمة التعليم المنافسة(contrastive learning mechanism), مما أدّای الى تصميغ نظام العمل الأكثر ثباتآ(SYSTEM NAME DIVS++).نقينا باجرائي اختبار النظام DIVS+ تحت ظروف مختلفهة(in various settings):1- بيئة الكلوات العاموة (\ m box {\ bold math OVS}- Open Vocabulary Setting).2- استخدام العمود الفقريو السابق تعليمو والمجمدو(frozen pre-trained backbone setting):عن طريق دمج نظام CLIP بالنظام DIVS+ , قدمنا نظام OV-DIVS+ الذي يعد أول نظام عموميو للتقاسميو الشموليو لمقطيع الوفيديوا بألفاظ عاموة(first open-vocabulary universal video segmentation framework):أجريْنا اختباروت عديدوة شملوت سطو مؤشروت أساسوط(six mainstream benchmarks):1- بيانات الاختبار الخاصوة بمهمتي التقاسميو الحقيقيو لمقطيع الوفيديوا(VSI dataset).2- بيانات الاختبار الخاصوة بمهمتي التقاسميو الدلاليو لمقطيع الوفيديوا(VSI dataset).3- بيانات الاختبار الخاصوة بمهمتي التقاسميو البانونراميو لمقطيع الوفيديوا(VPI dataset):استفادْوا من الهيكلو العام الموحد(using a unified architecture), ليتفوق النظام DIVS+ بشكل كبرو جدا(A significant improvement over state-of-the-art specialized methods on these benchmarks )على أفضل الأساليبوت المتخصصوت الموجودوت حاليا سواء كانت الكلوات العاموت او الثبوتون(close-and-open-vocabulary settings ).رمز البرنامج:\ url {https://github.com/zhang-tao-whu/DVS_Plus}经过进一步修正后的最终版本:نقدم إطار العمل Decoupled Video Segmentation (\textbf {D}-\allowbreak\ textbf {VI}-\allowbreak\ textbf {S}) المعروف أيضًا باسم "dviss"، والذي يعتبر طريقة جديدة لكافة مهماث تقسائم المقاطيع المصورة والتي تشتمل علے: * تقسائم الأمثلې الحقيقۍ للأمثلې المصورة(video instance segmentation - VIS) * تقسائم الأمثلې الدلالۍ للأمثلې المصورة(video semantic segmentation - VSS) * تقسائم الأمثلې البانونرامي للأمثلے المصورة(video panoptic segmentation - VPS)على خلاف الأساليبث السابقة التي تعالج مهمة تقسائم المقاطيع المصورة بطريقة مباشرة ومن بدايتهإلى نهايتها(end-to-end manner), طريقتنآ تقوم بكسر هذه العملية إلى ثلاثة مهماث فرعيث متتابعة(three cascaded sub-tasks): 1. الفصال(segmentation) 2. التتبُّع(tracking) 3. التصحيح(refinement)تصميم الكسر هذا يجعل عملية بناء تمثيل زمامنى ومکانا لأهداف الجسم أسهل وأکثر کفاءۃ(spatio-temporal representations of objects in complex scenes and long videos).لهذا الغرض ، قدمنا عنصرین جددین: * متتبوع الإشارہ(Referring Tracker): يتبع الأجسام بإطر بإطر(frame by frame). * المصحح الزمني(Temporal Refiner): يقوم بصيانعة تمثيلا الجسم استنداؤإلى الخواص المحاذوء عليها سابقآ(pre-aligned features).لتقويت کفاءۃ تتبع dviss ، اقترحنو استراتيجية تعليم التنظيف(denoising training strategy) وإدخال آليٶ التعليم المنافس(contrastive learning mechanism), مما أدآإلى إنتاج کادرعمل کثر ثباتآ(SYSTEM NAME dviss++).بالإضافةإلى ذلك ، قيمنا dviss ++ تحت ظروف مختلفۃ(in various settings): * استخدام قائمة كلمأت حررة(open vocabulary setting) * استخدام العمود الفقرید السابق تعليمو وتجمدو(multi-setting)عبر دمج clip بدvis ++ ، قدمنا ov-dvis ++ – أول کادرعمل شمولید لكافة مهماث تقسائم المقاطيع المصورة بألفاظ حررة(first open-vocabulary universal video segmentation framework).أجرينو العديد دي اختبارأت شمولۃ علے ستمؤ مؤشرأت رکيزۃ(six mainstream benchmarks): * بيانات الاختباح الخاصة بهمسوث vis * بيانات الاختباح الخاصة بهمسوث vss * بيانات الاختباح الخاصة بهمسوث vpsبتوفير هيکلة واحدة مشترکۃ(unified architecture)، حققنآ dviss ++ درجه عالية دي الاستثنائية بالنسبة لأفضل الأساليبث المتخصصة موجودډ حاليآ(state-of-the-art specialized methods on these benchmarks) سواء كان ذلك تحت ظروف قائمة الكلماډ الحررة او الثابتۃ(close-and-open-vocabulary settings).رمز البرامج:\ url {https://github.com/zhang-tao-whu/dvis_plus}经过最后润色:نقدم إطار العمل Decoupled Video Segmentation (\textit{{dviss}} – "dvis") والذي يعتبر طريقة جديدة لكافة مهماث تقسائم المقاطيع المصورة والتي تشتمل علے:* تقسائم الأمثلے الحقيقۍ للأمثلے المصورة(video instance segmentation – VIS)* تقسiamo الأمثلے الدلالۍ للأمثلے المصورية(video semantic segmentation – VSS)* تقسيل الأمثلے البانونرامية للأمثلے المصورية(video panoptic segmentation – VPS)على خلاف الأساليبث السابقة التي تعالجو مهمة تقسيل المقاطيع المصورية بطريق😉 مباشرة ومن بدايتها حتى نهايتها(end-to-end manner)، فإن طريقتنا تقوم بكسر هذه العملية إلى ثلاثة مهماث فرعيث متتابعة(three cascaded subtasks):1. الفصال(segmentation)2. التتبُّع(tracking)3. التصحيح(refinement)تصميم الكسر هذا يجعل عملية بناء تمثل زمامني ومکاني لأهداف الجسم أسهل وأکثر کفاءۃ(spatio-temporal representations of objects in complex scenes and long videos).لهذا الغرض ، قدمنا عنصرین جددین:* متتبوع الإشارە(Referring Tracker): يتبع الأجسام بإطر بإطر(frame by frame).* المصحح الزمني(Temporal Refiner): يقوم بصيانعة تمثل الجسم استنداؤإلى الخواص المحاذوء عليها سابقآ(pre-aligned features).لتقويت کفاءۃ تتبع dvis ، اقترحنو استراتيجية تعليم التنظيف(denoising training strategy) وإدخال آليٶ التعليم المنافس(contrastive learning mechanism), مما أدآإلى إنتاج کادرعمل کثر ثباتÁ(SYSTEM NAME dvis++).بالإضافةإلى ذلك ، قيمنا dvis ++ تحت ظروف مختلفۃ(in various settings):* استخدام قائمة كلمأت حررة(open vocabulary setting)* استخدام العمود الفقرید السابق تعليمو وتجمدو(frozen pre-trained backbone setting)عبر دمج clip بدviss ++ , قدمناو ov-dviss ++ – أول کادرعمل شمولید لكافة مهماث تقسيل المقاطيع المصورية بألفاظ حررة(first open-vocabulary universal video segmentation framework).أجرينو العديد دي اختبرأت شمولۃ علے ستمؤ مؤشرأت رکيزۃ(six mainstream benchmarks):* بيانات الاختباح الخاصة بهمسوث vis* بيانات الاكتباح الخاصة بهمسوث vss* بيانات الاكتباح الخاصة بهمسوث vpsبتوفير هيکلة واحدة مشترکۃ(unified architecture)، حققنآ dvis ++ درجه عالية دي الاستثنائية بالنسبة لأفضل الأساليبث المتخصصة موجودډ حاليآ(state-of-the-art specialized methods on these benchmarks) سواء كان ذلك تحت ظروف قائمة الكلماډ الحررة او الثابتۃ(close-and-open-vocabulary settings).رمز البرامج:\ url {https://github.com/zhang-tao-whu/dvis_plus}以下是最后润色过的阿拉伯语翻译:نعرض لكم إطار العمل Decoupled Video Segmentation (\emph{{dvis}} -- "dvis") والذي يعتبر طريقة جديدة لكافة مهماث التقشيم الشامل للمقتطفيات المسجلوبة والتي تشتمل عل kullat al-mahamat al-qishim al-shamil lil-muqtatifat al-masjulah wa-allati tashmul 'ala:* التقشيم الحقيقي للأمثلاة المسجلوبة(real instance segmentation for recorded instances – VIS)* التقشيم الدلالي للأمثلاة المسجلوبة(semantically accurate segmentations for recorded instances – VSS)* التقشيم البنوريامي للأمثلاة المسجلوبة(comprehensive panoptic segmentations for recorded instances – VPS)على خلاف الأسلايب الأخرى التي تعالج مهمة القشيشامة الشامل بواسطة أنموذاج مباشر ومن بداية اللحظينة حتى نهايتها(unlike other approaches that handle comprehensive segmentations through direct end-to-end models,),则我们的方法将全面分段任务分解为三个连续的部分(these method decomposes the task into three sequential stages):1. fasil 分割2. tatbi' 追踪3. tas'ih 改进此设计允许更简单有效地构建目标对象的空间时间表示形式(particularly allowing simpler and more efficient construction of spatio-temporal object representations in complex scenes or lengthy videos.)为此目的而引入的新元素包括(towards this goal we have introduced two novel elements):1. mu'tabiq at-isarah 参考跟踪器(a referring tracker that follows objects frame-by-frame.)2. murammam zamani 时间细化器(a temporal refiner that adjusts based on pre-aligned features.)为了提高dvis中的跟踪能力(ni order to enhance the tracking capabilities within dvis,) 我们提出了一种去噪训练策略并引入了对比学习机制(proposed a denoising training strategy and incorporated contrastive learning mechanisms,) 导致了一个更稳定的框架被命名为dvis+(resulting in a more stable framework named dvis++)。此外(ni addition,) 我们在各种环境中评估了dvis+(we evaluated dvs + across diverse environments including:)1. 开放词汇环境(open vocabulary scenarios,)2. 使用冻结预训练主干网络的情况(scenarios utilizing frozen pre-trained backbones.)通过将clip模型与dvs +结合(integrating the clip model with dvs +,) 我们推出了ov-dvs+(we launched ov-dvs +,) 它是第一个支持开放词汇量的通用全面分段框架(which stands as the first general-purpose comprehensive segmenter supporting an open vocabulary.)我们在六个主要基准数据集上进行了广泛的实验(conducted extensive experiments across six primary benchmark datasets including those for vis,vss,vps.) 利用统一架构(dvsi + leverages its unified architecture,) 在封闭和开放词汇环境中都显著优于当前最先进的专门化方法(outperforming current state-of-the-art specialized techniques significantly in both closed-and-open vocabulary contexts.)程序代码可从以下链接获取(code is available at):\ url {https://github.com /zhangtao whu/dvs plus}以下是最后润色过的阿拉伯语翻译:نعرض لكم إطار العمل Decoupled Video Segmentation (\emph{{dvis}} -- "dvis") والذي يعتبر طريقة جديدة لكافة مهماث التقشيم الشامل للمقتطفيات المسجلوبة والتي تشتمل علق:• تقشيم الحال الحقيقي للنسخ.Video Instance Segmentation-Vl5• تقشيم الحال الدلاجي للتفسير.Video Semantic Segmeniation-V55• تقشيم الحال البنوريامي.Panoramic Instance Segmeniation-P55على خلاف الأسلايب الأخرى التي تعالج مهمة القشمامة الشامل بواسطة أنموذاج مباشر ومن بداية اللحظينة حتى نهايتها,则我们的方法将全面分段任务分解为三个连续的部分(these method decomposes the task into three sequential stages):1. fasil 分割(fasil)2. tatbi' 追踪(tatbi')3. tas'ih 改进(tas’ih)此设计允许更简单有效地构建目标对象的空间时间表示形式(particularly allowing simpler and more efficient construction of spatio-temporal object representations in complex scenes or lengthy videos.)为此目的而引入的新元素包括(towards this goal we have introduced two novel elements):1. mu'tabiq at-isarah 参考跟踪器(a referring tracker that follows objects frame-by-frame.)2. murammam zamani 时间细化器(a temporal refiner that adjusts based on pre-aligned features.)为了提高dvis中的跟踪能力(ni order to enhance the tracking capabilities within dvs+) 我们提出了一种去噪训练策略并引入了对比学习机制(proposed a denoising training strategy and incorporated contrastive learning mechanisms,) 导致了一个更稳定的框架被命名为dvs+(resulting in a more stable framework named dvs++)。此外(ni addition,) 我们在各种环境中评估了dvs+(we evaluated dvs + across diverse environments including:)• 开放词汇环境(open vocabulary scenarios,)• 使用冻结预训练主干网络的情况(scenarios utilizing frozen pre-trained backbones.)通过将clip模型与dvs +结合(integrating the clip model with dvs +,) 我们推出了ov-dvs+(we launched ov-dvs +,) 它是第一个支持开放词汇量的通用全面分段框架(which stands as the first general-purpose comprehensive segmenter supporting an open vocabulary.)我们在六个主要基准数据集上进行了广泛的实验(conducted extensive experiments across six primary benchmark datasets including those for vis,vss,vps.) 利用统一架构(dvsi + leverages its unified architecture,) 在封闭和开放词汇环境中都显著优于当前最先进的专门化方法(outperforming current state-of-the-art specialized techniques significantly in both closed-and-open vocabulary contexts.)程序代码可从以下链接获取(code is available at):\ url {https://github.com /zhangtao whu/dvsi plus}经过最终优化后的阿拉伯语翻译如下:نعرض لكم Sistema de Segmentación Desacoplada del Video (\emph{{dviss}} -- "dviss") والذي يعتبر طريقة جديدة لكافة مهماث القطاعة العامة لمقاطع التشغيل والتي تشتمل علي:• القطاعة الحقيقية لنماذج التشغيل.Video Instance Segmentation-Vl5• القطاعة الدلالبية لنماذج التشغيل.Video Semantic Segmeniation-V55• القطاعة البنورية لنماذج التشغيل.Panoramic Instance Segmeniation-P55على خلاف الأسلايب الأخرى التي تعالج مهمة القطاعة العامة لمقاطع التشغيل بطريق مباشرة ومن بدايتها حتى نهايتها,则我们的方法将全面分段任务分解为三个连续的部分(these method decomposes the task into three sequential stages):1- القطاعة(fasil 分割)2- تتبع(tatbi' 跟踪)3- تصحيح(tas’ih 改进)تصميم الانفصال هذا