자연어 시각적 지칭
자연어 시각 지시(Natural Language Visual Grounding)는 텍스트 정보와 시각적 요소를 자연어 설명을 통해 일치시키는 다중 모달 작업입니다. 이 작업은 컴퓨터 비전과 자연어 처리 기술을 통합하여, 기계가 텍스트 설명과 이미지의 특정 영역 간의 대응 관계를 이해할 수 있도록 하는 것을 목표로 합니다. 이 작업의 응용 가치는 인간과 컴퓨터 간의 상호작용을 더욱 자연스럽고 정확하게 만드는 데 있으며, 이미지 주석, 시각적 질문 응답, 로봇 네비게이션 등 다양한 분야에서 활용되고 있습니다.