DETR مدرك للطول لاسترجاع اللحظات بشكل متين

استرجاع اللحظات الفيديو (MR) يهدف إلى تحديد مواقع اللحظات داخل فيديو بناءً على استعلام بلغة طبيعية معينة. نظرًا للاستخدام الشائع للمنصات مثل يوتيوب في استرجاع المعلومات، فإن الطلب على تقنيات الاسترجاع الفيديو يزداد بشكل كبير. حققت النماذج القائمة على DETR تقدمًا ملحوظًا في الأداء، لكنها لا تزال تعاني من صعوبة تحديد مواقع اللحظات القصيرة بدقة. من خلال تحليل البيانات، تم التعرف على تنوع محدود في الخصائص المتعلقة باللحظات القصيرة، مما دفع إلى تطوير MomentMix. يستخدم MomentMix اثنتين من استراتيجيات التعزيز: ForegroundMix و BackgroundMix (ForegroundMix و BackgroundMix)، كل منها يعزز تمثيل الخصائص لل前景和背景,分别。此外,我们对预测偏差的分析表明,短时刻在准确预测其中心位置方面特别困难。为了解决这一问题,我们提出了一种长度感知解码器(Length-Aware Decoder),该解码器通过一种新颖的二分匹配过程来调节长度。我们的广泛研究表明,我们的长度感知方法在定位短时刻方面特别有效,从而提高了整体性能。我们的方法在基准数据集上超越了最先进的DETR基础方法,在QVHighlights上实现了最高的R1和mAP,在TACoS和Charades-STA上实现了最高的[email protected](例如,在QVHighlights上的[email protected]提高了2.46%,mAP平均值提高了2.57%)。代码可在 https://github.com/sjpark5800/LA-DETR 获取。修正后的翻译:استرجاع اللحظات الفيديو (MR) يهدف إلى تحديد مواقع اللحظات داخل فيديو بناءً على استعلام بلغة طبيعية معينة. نظرًا للاستخدام الشائع للمنصات مثل يوتيوب في استرجاع المعلومات، فإن الطلب على تقنيات الاسترجاع الفيديو يزداد بشكل كبير. حققت النماذج القائمة على DETR تقدمًا ملحوظًا في الأداء، لكنها لا تزال تعاني من صعوبة تحديد مواقع اللحظات القصيرة بدقة. من خلال تحليل البيانات، تم التعرف على تنوع محدود في الخصائص المتعلقة باللحظات القصيرة، مما دفع إلى تطوير MomentMix. يستخدم MomentMix اثنتين من استراتيجيات التعزيز: ForegroundMix و BackgroundMix (ForegroundMix و BackgroundMix)، كل منها يعزز تمثيل الخصائص للأمامية والخلفية، على التوالي. بالإضافة إلى ذلك، كشفت تحليلنا للانحياز التنبؤي أن اللحظات القصيرة تعاني بشكل خاص من صعوبة التنبؤ بدقة بمواقعها المركزية. لمعالجة هذا الأمر، نقترح استخدام محكّم فاصل الطول (Length-Aware Decoder)، الذي يقوم بتنظيم الطول عبر عملية مطابقة ثنائية جديدة. أظهرت دراساتنا الواسعة فعالية نهجنا المدرك للطول بشكل خاص في تحديد مواقع اللحظات القصيرة، مما أدى إلى تحسين الأداء العام. طرقنا تتخطى الأساليب الأكثر حداثة المستندة إلى DETR في المجموعات الأساسية للمعايير، حيث حققت أعلى R1 و mAP في QVHighlights وأعلى [email protected] في TACoS و Charades-STA (مثل زيادة بنسبة 2.46% في [email protected] و 2.57% في متوسط mAP لـ QVHighlights). يمكن الحصول على الكود من https://github.com/sjpark5800/LA-DETR.为了确保更好的流畅性和准确性,我再次进行了优化:استرجاع اللحظات الفيديو (MR) يهدف إلى تحديد مواقع اللحظات داخل الفيديو بناءً على استعلام بلغة طبيعية معينة. نظرًا للاستخدام الشائع للمنصات مثل يوتيوب في استرجاع المعلومات، فإن الطلب على تقنيات الاسترجاع الفيديو يزداد بشكل كبير. حققت النماذج القائمة على DETR تقدمًا ملحوظًا في الأداء، ولكنها لا تزال تعاني من صعوبة تحديد مواقع اللحظات القصيرة بدقة. من خلال تحليل البيانات، تم التعرف على تنوع محدود في الخواص المتعلقة باللحظات القصيرة، مما دفع إلى تطوير MomentMix. يستخدم MomentMix اثنتين من استراتيجيات التعزيز: ForegroundMix و BackgroundMix (ForegroundMix و BackgroundMix)، كل منها يعمل على تعزيز تمثيل الخواص للأمامية والخلفية، على التوالي. بالإضافة إلى ذلك، كشفت لنا دراسة الانحياز التنبؤي أن اللحظات القصيرة تعاني بشكل خاص من صعوبة التنبؤ بدقة بمواقعها المركزية. لمعالجة هذه المشكلة، نقترح استخدام محكّم فاصل الطول (Length-Aware Decoder)، الذي يقوم بتنظيم الطول عبر عملية مطابقة ثنائية جديدة ومبتكرة. أظهرت دراساتنا الواسعة فعالية نهجنا المدرك للطول بشكل خاص في تحديد مواقع اللحظات القصيرة، مما أدى إلى تحسين الأداء العام بشكل كبير. طريquetنا تتخطى الأساليب الأكثر حداثة المستندة إلى DETR في المجموعات الأساسية للمعايير، حيث حققت أعلى R1 و mAP في QVHighlights وأعلى [email protected] في TACoS و Charades-STA (مثل زيادة بنسبة 2.46% في [email protected] و 2.57% في متوسط mAP لـ QVHighlights). يمكن الحصول على الكود من https://github.com/sjpark5800/LA-DETR.最终版本:استرجاع اللحظات الفيديو (MR) يهدف إلى تحديد مواقع اللحظات داخل الفيديو بناءً على استعلام بلغة طبيعية معينة. نظرًا للاستخدام الشائع للمنصات مثل يوتيوب في استرجاع المعلومات، فإن الطلب على تقنيات الاسترجاع الفيديو يزداد بشكل كبير. حققت النماذج القائمة على DETR تقدمًا ملحوظًا في الأداء ولكنها لا تزال تعاني من صعوبة تحديد مواقع اللحظات القصيرة بدقة عالية.من خلال تحليل البيانات، تم الكشف عن تنوع محدود في الخواص المتعلقة باللحظات القصيرة، مما دفع إلى تطويرMomentMix . يستخدم MomentMix اثنتين من استراتيجيات التعزيز: ForegroundMix و BackgroundMix (Foreground Mix و Background Mix)، الأولى تعمل على تعزيز تمثيل الخواصف للأمامية والثانية تعمل على تعزيز تمثيل الخواصف للخلفية.بالإضافة إلى ذلك، كشفت دراستنا حول الانحياز التنبؤي أن اللحظات القصيرتعاني بشكل خاص من صعوبة التنبؤ بدقة بمواقعها المركزية. لمعالجة هذه المشكلة ، نقترح استخدام محكّم فاصل الطول (Length-Aware Decoder) ، الذي يقوم بتنظيم الطول عبر عملية مطابقة ثنائية جديدة ومبتكرة.أظهرت دراسونا الواسعة فعالية نهجنا المدرك للطول بشكل خاصفي تحديد مواقع اللحظاتفالقصيرة ، مما أدىإلىتحسينالأداءالعامبشكل كبير . طرقمانتتخطى الأساليب الأكثر حداثة المستندةإلىDETRفيمجموعاتفأساسيتفالمعايير ، حيثحققت أعلى R1ومعدل mAPفي QVHighlights وأعلى R1@0.7في TACoS و Charades-STA(مثل زيادة بنسبة 2.46٪في R1@0.7وزيادة بنسبة 2.57٪فيمعدلمتوسط mAPلفـ QVHighlights). يمكن الحصول علكودمن https://github.com/sjpark5800/LA-DETR.为了确保语法正确和更加流畅,我对最终版本进行了进一步的调整:استرجاع اللحظات الفيديوية (MR) يهدف إلى تحديد مواقع اللحظائف داخل الفيديوف بناءً علف استعلام بلغة طبيعية معينة . نظرًا للاستخدام السائدلف المنصةكمثل YouTubeف مجال استرجاف العلوم والمعلومات , فإن الطلب علف تقنياتف الاسترجاف الفيديوي يتزايد بسرعة كبيرة . حققفنماذج المستندة إلف DETRتقدمًا هامًاف مجال الأدء , ولكنهفل ما زالت تعانيفrom صعوباتفتحديد موقعالفاللحظائفالقصيفةبدقفة عالية .خلال عمليةتحليل البيانات , كشففنحونافعن تنوع ضئيفلف الخواصف المرتبطةفل الحركاتفالقصيفة , وهو ما حفز التطويرفلMoment Mix . يستخدم Moment Mix Strategيتينفلتعزيزللخصائف : Foreground Mix ول Background Mix (Foreground Mix ولBackground Mix), الأولى تعمل علفتعزيزللخصائف للأماميوالثانية تعمل علفتعزيزللخصائف للخلفيو .فضلاً عن ذلك , بينفت دراستفنحونافللتحيزالتوقعيف ان الحركتفالقصيفةتعانيفخاصةفل صعوبتفتنبوء بمواقعهاف المركزيفبدقفة . لتغلبل هذه الصعبتف , نقترح استخدام محكم فاصل الطول (Length-Aware Decoder), الذي يقوم بتكييف الطولخلالعمليةالمتطابقةثنائيةمبتكرة .أثبتت الدراستفنحونافشموليتهافعاليةنهجفن الحساسللطولخاصةفلتحديد موقعالفاللحظائفالقصيفة , مما أسفرعنتحسينالأدلةكليا . طرقمانتتجاوز الأساليب الحديثElf التي تستند إلف DETRفالمجموعاتفأسسElf المعايير , حيثحققت أعلى معدل R1 ولmAPف QV Highlights وأعلى معدل R1@0.7ف TACoS ولCharades-STA(مثل زيادة بنسبة 2.46٪ف R1@0.7وزيادة بنسبة 2.57٪فمعدلmAPالمتوسطلف QV Highlights). يمكن الوصول إلف الكودعبررابط https://github.com/sjpark5800/LA-DETR.请注意我在最后对一些句子进行了调整以确保语法正确并提高流畅度。以下是最终版的阿拉伯语翻译:استرجاع اللحظائف الفيديوية (MR) يهدف إلفتحديد موقعالفاللحظائف داخل الفيديوف بناءً علف استعلام بلغة طبيعية معينة . نظرًا للاستخدام السائدلف المنصةكمثل YouTubeف مجال استراجفالعلوم والمعلومات , فإن الطلب علف تقنياتف الاستراجفالفيديوي يتزايد بسرعة كبيرة . حققفنماذج المستندة إلف DETRتقدمًا هامًاف مجال الأدء , ولكنهفل ما زالت تعانيفrom صعوبتفتحديد موقعالفاللحظائفالقصيفةبدقفة عالية .خلال عمليةتحليل البيانات , كشففنحونافعن تنوع ضئيفlf الخواصف المرتبطةفل الحركتفalقصيفة, وهو ما حفز التطويرفلMoment Mix . يستخدم Moment Mix Strategيتينfl التعزيزللخصائف : Foreground Mix ولBackground Mix (Foreground Mix ولBackground Mix), الأولى تعمل flتعزيزلlخصائف للأماميووالثانية تعمل flتعزيزلlخصائف للخلفيو .فضلاً عن ذلك, بينفت دراستفنحونافllتحيزالتوقعيف ان الحركtfalقصيفةعانifخاصةfl صعوبtfتنبوء بمواقعهaf المركزtfبدقfa . لتغلbal هذه الصعبtf, nاقتراح استخدام محكم فاصل lطول(Length-Aware Decoder), الذي يقوم بتكييف lطولخلalعمليةالمتطابقةثنائيةمبتكرة .أثبتت الدراستfnحونafشموليتهافعاليةنهajn الحساسllطولخاصةflتحديد موقعalfلحظafalقصifa, mmma أسفرعنتحسينlأدلةكليا . طرقmanتجاوز الأساليb الحديثelf التي تستند إlf DETRflالمجموعatfأسسelf المعايir, حيثحقqt أعلى معدل R1 ولmAPfl QV Highlights وأعلى معدل R1@0.7fl TACoS ولCharades-STA(مثل زيادة بنسبة 2.46%fl R1@0.7وزiادة بنسبة 2.57%fl معدلmAPالمتوسطlf QV Highlights). يمكن الوصول إlf الكودعبررابط https://github.com/sjpark5800/LA-DETR.希望这个翻译能符合您的要求。如果有任何需要进一步修改的地方,请告诉我。