فيديو ك-نت: أساس بسيط، قوي وم统一 لتقسيم الفيديو 请注意,"统"字在阿拉伯语中没有对应的词,可能是翻译时的一个错误。正确的翻译应该是: فيديو ك-نت: أساس بسيط، قوي ومُوحَّد لتقسيم الفيديو

يقدم هذا البحث إطار عمل فيديو كيه-نت (Video K-Net)، وهو إطار بسيط وقوي وموحد لتقسيم الفيديو البانورامي بشكل كامل من النهاية إلى النهاية. يتم بناء هذه الطريقة على أساس كيه-نت (K-Net)، وهي طريقة توحّد تقسيم الصور من خلال مجموعة من النوى القابلة للتعلم. لقد لاحظنا أن هذه النوى القابلة للتعلم من كيه-نت، والتي ترميز مظهر الأشياء والسياقات، يمكن أن تربط بشكل طبيعي بين الحالات المتطابقة عبر إطارات الفيديو. مستوحىً من هذا الملاحظ، يتعلم فيديو كيه-نت تقسيم وتتبع "الأشياء" و"المادة" في الفيديو باستخدام نماذج مظهر بسيطة تعتمد على النوى والتفاعل الزمني العابر للنوى. رغم بساطتها، فإنها تحقق أفضل النتائج الحالية في تقسيم الفيديو البانورامي على مجموعات البيانات سيتسكيبس-في بي أس (Citscapes-VPS) وكايتتي-ستيب (KITTI-STEP) وفي بي سيغ (VIPSeg) دون الحاجة إلى تقنيات معقدة. وبشكل خاص، على مجموعات بيانات كايتتي-ستيب، يمكن لهذه الطريقة البسيطة تحقيق تحسينات نسبية تقارب 12٪ بالمقارنة مع الطرق السابقة. وعلى مجموعات بيانات في بي سيغ، يحقق فيديو كيه-نت تحسينات نسبية تقارب 15٪ ويؤدي إلى نسبة جودة تقسيم الفيديو البانورامي (VPQ) قدرها 39.8٪. كما أجرينا اختبارات التعميم على تقسيم المعنى في الفيديو، حيث حققنا تحسينًا بنسبة 2٪ على مجموعة بيانات في إس بي دبليو (VSPW). بالإضافة إلى ذلك، قمنا بتوسيع نطاق كيه-نت إلى إطار عمل مستوى الكليب لتقسيم حالات الفيديو، حيث حصلنا على دقة استدعاء متعددة الأهداف (mAP) قدرها 40.5٪ باستخدام هيكل ريسنت50 (ResNet50) و54.1٪ باستخدام هيكل سواين-베يس (Swin-base) على مجموعة التحقق من صحة يوتوب 2019 (YouTube-2019 validation set). نأمل أن تكون هذه الطريقة البسيطة ولكن الفعالة نقطة بداية جديدة ومرونة في تصميم التقسيم الموحد للفيديو. تم إطلاق الشفرة البرمجية والنماذج على الرابط https://github.com/lxtGH/Video-K-Net.