HyperAIHyperAI
منذ 2 أشهر

اكتشاف الكائنات البصرية والكلمات المنطوقة من المدخل الحسي الخام

David Harwath; Adrià Recasens; Dídac Surís; Galen Chuang; Antonio Torralba; James Glass
اكتشاف الكائنات البصرية والكلمات المنطوقة من المدخل الحسي الخام
الملخص

في هذا البحث، نستكشف نماذج الشبكات العصبية التي تتعلم ربط مقاطع التسميات الصوتية المنطوقة بالجزء ذي الصلة من الناحية الدلالية من الصور الطبيعية التي تشير إليها. نثبت أن هذه التوطينات المرتبطة بين السمع والبصر تنشأ من تمثيلات داخلية للشبكة يتم تعلمها كمنتج ثانوي لتدريب النظام على مهمة استرجاع الصورة-الصوت. تعمل نماذجنا مباشرة على بيكسلات الصورة وموجة الكلام، ولا تعتمد على أي نوع من الإشراف التقليدي على شكل العلامات أو التقسيمات أو التحديدات بين الأصناف خلال التدريب. نقوم بتحليل باستخدام مجموعتي البيانات Places 205 و ADE20k، مما يظهر أن نماذجنا تتعلم ضمنياً كاشفات الأشياء والكلمات ذات الارتباط الدلالي.

اكتشاف الكائنات البصرية والكلمات المنطوقة من المدخل الحسي الخام | أحدث الأوراق البحثية | HyperAI