Rel3D: معيار تبايني بسيط لترسيخ العلاقات المكانية في ثلاثية الأبعاد

فهم العلاقات المكانية (مثل "الحاسوب المحمول على الطاولة") في المدخلات البصرية مهم لكل من البشر والروبوتات. ومع ذلك، فإن البيانات المتاحة حاليًا غير كافية لأنها تفتقر إلى معلومات ثلاثية الأبعاد عالية الجودة وذات نطاق واسع، وهي ضرورية لتعلم العلاقات المكانية. في هذا البحث، نسد هذه الفجوة من خلال بناء Rel3D: أول مجموعة بيانات كبيرة الحجم تم توثيقها من قبل البشر لتحديد العلاقات المكانية في بيئة ثلاثية الأبعاد. يمكّن Rel3D من قياس فعالية المعلومات الثلاثية الأبعاد في التنبؤ بالعلاقات المكانية باستخدام بيانات بشرية ذات نطاق واسع. بالإضافة إلى ذلك، نقترح جمع البيانات بطريقة التباين الأدنى -- طريقة جديدة للعمل الجماعي تهدف إلى تقليل التحيز في مجموعة البيانات. تحتوي المشاهد الثلاثية الأبعاد في مجموعتنا على أزواج ذات تباين أدنى: مشهدين في الزوج يكونان شبه متطابقين، ولكن العلاقة المكانية تكون صحيحة في أحدهما وغير صحيحة في الآخر. لقد أثبتنا تجريبيًا أن الأمثلة ذات التباين الأدنى يمكن أن تشخيص المشكلات مع نماذج الكشف عن العلاقات الحالية وكذلك تقود إلى تدريب فعال من حيث العينة. الرمز والمعلومات متاحة على https://github.com/princeton-vl/Rel3D.