إدراك ترتيبات الفضاء ثلاثية الأبعاد بين الإنسان والأشياء من صورة واحدة في البيئة الطبيعية

نقدم طريقة تُستخدَم لاستنتاج الترتيبات المكانية وأشكال البشر والأشياء في مشهد ثلاثي الأبعاد متسق عالمياً، وذلك من صورة واحدة تم التقاطها في بيئة غير مُحكَمة. ومن الجدير بالذكر أن طرقنا تعمل على قواعد بيانات لا تحتوي على أي إشراف ثلاثي الأبعاد على مستوى المشهد أو الهدف. الرؤية الأساسية لدينا هي أن اعتبار البشر والأشياء بشكل مشترك يؤدي إلى قيود "العقل السليم الثلاثي الأبعاد" التي يمكن استخدامها لحل الغموض. وبشكل خاص، نقدم خسارة مقاسة تتعلم توزيع حجم الأشياء من البيانات؛ وخسارة إعادة تصوير القصّة مع وعي بالإخفاء لتحسين وضعية الأشياء؛ وخسارة التفاعل بين الإنسان والشيء لتقديم التخطيط المكاني للأجسام التي يتفاعل معها الإنسان. لقد أجرينا التحقق التجريبي من أن قيودنا تقلل بشكل كبير من مجال التكوينات المكانية الثلاثية المحتملة. نوضح نهجنا باستخدام صور معقدة تم التقاطها في البيئة الحقيقية للبشر الذين يتفاعلون مع أجسام كبيرة (مثل الدراجات الهوائية، الدراجات النارية، والألواح الشراعية) وأجسام يحملونها بيدهم (مثل أجهزة الكمبيوتر المحمولة، مضارب كرة المضرب، وألواح التزلج). نقيس قدرة نهجنا على استعادة ترتيبات البشر والأجسام ونبين التحديات المتبقية في هذا المجال النسبي. يمكن العثور على صفحة الويب الخاصة بالمشروع على الرابط: https://jasonyzhang.com/phosa.注释:- "in-the-wild" 翻译为 "في البيئة الحقيقية",这是指在自然、不受控制的环境中。- "scale loss" 翻译为 "خسارة مقاسة",这是一个不太常见的术语,因此保留了英文原词以确保信息完整。- "occlusion-aware silhouette re-projection loss" 翻译为 "خسارة إعادة تصوير القصّة مع وعي بالإخفاء"،其中“قصّة”是指轮廓,“إخفاء”是指遮挡。- "human-object interaction loss" 翻译为 "خسارة التفاعل بين الإنسان والشيء",这是指人类与物体之间的交互损失。- 其他术语如 “3D common sense” 和 “3D spatial configurations” 已经根据通用译法进行了翻译。