음성 유도 의미 분할

음성 유도 의미 분할(Speech-Prompted Semantic Segmentation)은 컴퓨터 비전 분야의 하위 작업으로, 화자가 언급한 범주나 세그먼트 이름을 분석하여 이미지에서 의미 분할 영역을 예측하는 기술입니다. 이 기술은 오디오 신호 처리와 이미지 인식을 결합하여 다중 모달 정보 융합을 가능하게 하고, 이미지 이해의 정확성과 강건성을 향상시킵니다. 응용 범위는 시각 장애인의 환경 이해 및 상호 작용 지원, 증강 현실 기술에서의 객체 인식 및 주석 등 다양합니다.

ADE20K

DenseAV