وضع الأشخاص في أماكنهم: الانحدار المونوكولي للأشخاص الثلاثة الأبعاد في العمق

بالنظر إلى صورة تحتوي على عدة أشخاص، هدفنا هو تقدير الوضع والشكل لكل الأشخاص وكذلك عمقهم النسبي مباشرةً. ومع ذلك، فإن استنتاج عمق شخص في الصورة يظل أساسياً غير واضح دون معرفة طوله. وهذا الأمر يكون خاصةً مشكلة عندما تحتوي المشهد على أشخاص بأحجام مختلفة بشكل كبير، مثل الرضعيف إلى البالغين. لحل هذه المشكلة، نحتاج إلى عدة أمور. أولاً، نطور طريقة جديدة لاستنتاج الوضعيات والأعماق لعدة أشخاص في صورة واحدة. بينما تقوم الأعمال السابقة التي تقدر عدة أشخاص بإجراء الاستدلال في مستوى الصورة، فإن طريقتنا التي تسمى BEV (Bird's-Eye-View) تضيف تمثيلاً تخيلياً من منظور الطائر للتعامل صراحة مع العمق. تقوم BEV بالاستدلال بشكل متزامن عن مراكز الأجسام في الصورة وفي العمق، وبواسطة دمج هذين العنصرين تقدير الموضع ثلاثي الأبعاد للأجسام. على خلاف الأعمال السابقة، فإن BEV هي طريقة واحدة التصوير التي يمكن تفاضلها من البداية إلى النهاية. ثانياً، يختلف الطول حسب العمر مما يجعل من المستحيل حل مشكلة العمق دون تقدير عمر الأشخاص في الصورة أيضًا. لتحقيق هذا الغرض، نستفيد من فضاء نموذج الجسم ثلاثي الأبعاد الذي يتيح لـ BEV استنتاج الأشكال من الرضعيف إلى البالغين. ثالثاً، لتدريب BEV، نحتاج إلى مجموعة بيانات جديدة. تحديداً، ننشئ مجموعة بيانات "الإنسان النسبي" (RH) التي تتضمن ملصقات العمر والعلاقات العميقة النسبية بين الأشخاص في الصور. تُظهر التجارب الواسعة على RH و AGORA فعالية النموذج ومخطط التدريب. يتفوق BEV على الأساليب الموجودة في استنتاج العمق وتقدير شكل الأطفال والمتانة ضد الإخفاء الجزئي. تم إصدار الكود ومجموعة البيانات لأغراض البحث العلمي.请注意,这里的“رضعيف”是“infants”的音译,因为这个词在阿拉伯语中并不常用。通常情况下,我们会使用“رضع”或“أطفال صغار”来表示婴儿。因此,建议将“رضعيف”替换为“رضع”或“أطفال صغار”,以提高可读性和准确性:بالنظر إلى صورة تحتوي على عدة أشخاص، هدفنا هو تقدير الوضع والشكل لكل الأشخاص وكذلك عمقهم النسبي مباشرةً. ومع ذلك، فإن استنتاج عمق شخص في الصورة يظل أساسياً غير واضح دون معرفة طوله. وهذا الأمر يكون خاصةً مشكلة عندما تحتوي المشهد على أشخاص بأحجام مختلفة بشكل كبير، مثل الرضع (infants) إلى البالغين. لحل هذه المشكلة، نحتاج إلى عدة أمور. أولاً، نطور طريقة جديدة لاستنتاج الوضعيات والأعماق لعدة أشخاص في صورة واحدة. بينما تقوم الأعمال السابقة التي تقدر عدة أشخاص بإجراء الاستدلال في مستوى الصورة، فإن طريقتنا التي تسمى BEV (Bird's-Eye-View) تضيف تمثيلاً تخيلياً من منظور الطائر للتعامل صراحة مع العمق. تقوم BEV بالاستدلال بشكل متزامن عن مراكز الأجسام في الصورة وفي العمق، وبواسطة دمج هذين العنصرين تقدير الموضع ثلاثي الأبعاد للأجسام. على خلاف الأعمال السابقة، فإن BEV هي طريقة واحدة التصوير التي يمكن تفاضلها من البداية إلى النهاية. ثانياً, الطول يختلف حسب العمر مما يجعل من المستحيل حل مشكلة العمق دون تقدير عمر الأشخاص في الصورة أيضًا. لتحقيق هذا الغرض, نستفيد من فضاء نموذج الجسم ثلاثي الأبعاد الذي يتيح لـ BEV استنتاج الأشكال من الرضع (infants) إلى البالغين。 ثالثاً, لتدريب BEV ، نحتاج إلى مجموعة بيانات جديدة。 تحديداً ، ننشئ مجموعة بيانات "الإنسان النسبي" (RH) التي تتضمن ملصقات العمر والعلاقات العميقة النسبية بين الأشخاص في الصور。 تُظهر التجارب الواسعة على RH و AGORA فعالية النموذج ومخطط التدريب。 يتفوق BEV على الأساليب الموجودة في استنتاج العمق وتقدير شكل الأطفال والمتانة ضد الإخفاء الجزئي。 تم إصدار الكود ومجموعة البيانات لأغراض البحث العلمي。希望这个版本更加符合您的要求。如果有任何进一步的修改意见,请随时告知!