GENESIS: الاستدلال والإنتاج المشهد باستخدام التمثيلات الكامنة المتمحورة حول الكائنات

النماذج المولدة ذات المتغيرات الكامنة تظهر كأدوات واعدة في مجال الروبوتات والتعلم التعزيزي. ومع ذلك، رغم أن المهام في هذه المجالات غالبًا ما تتضمن أشياء متميزة، فإن معظم النماذج المولدة الرائدة لا تلتقط بشكل صريح الطبيعة التركيبية للمشاهد المرئية. هناك استثناءان حديثان، وهما MONet وIODINE (مونيت وإودين)، حيث يقومان بتفكيك المشاهد إلى أشياء بطريقة غير مراقبة. ومع ذلك، فإن العمليات المولدة الأساسية لهذين النموذجين لا تأخذ في الاعتبار التفاعلات بين المكونات. لذلك، لا يسمح أي منهما بعينة مبدئية للمشاهد الجديدة. هنا نقدم GENESIS (جينيس)، وهو أول نموذج مولد مركز على الأشياء للمشاهد المرئية ثلاثية الأبعاد قادر على تفكيك وتوليد المشاهد من خلال التقاط العلاقات بين مكونات المشهد. يقوم GENESIS بتقسيم خليط غاوساني فضائي على الصور التي يتم فك شفرتها من مجموعة من المتغيرات الكامنة المركزية على الأشياء، والتي إما يتم استنتاجها بشكل متتابع بطريقة مسترخية أو يتم اختيارها من سابقة ذاتية الانحدار. قمنا بتدريب GENESIS على عدة قواعد بيانات متاحة للعامة وقيمّنا أدائه في توليد المشاهد وتفكيكها والتعلم شبه المراقب.