HyperAI

Speech Prompted Semantic Segmentation

تقطيع الصور الدلالي المُحفز بالكلام هو مهمة فرعية في مجال رؤية الحاسوب تهدف إلى التنبؤ بمناطق التقطيع الدلالي في الصور من خلال تحليل الفئات أو أسماء الأقسام التي يذكرها المتحدث. تجمع هذه التقنية بين معالجة إشارات الصوت وتعرف الصور، مما يمكّن من دمج المعلومات عبر الأوضاع المختلفة ويعزز دقة ومتانة فهم الصور. لديها نطاق تطبيقات واسع، مثل مساعدة الأشخاص ذوي الإعاقة البصرية على فهم التفاعل مع بيئتهم، وتعرف الأشياء والتعليق عليها في تقنيات الواقع المعزز.