HyperAI초신경

Visual Grounding

비주얼 그라운딩(VG)은 자연어 쿼리에 따라 이미지에서 가장 관련성이 높은 객체나 영역을 찾는 것을 목표로 합니다. 이 작업의 핵심적인 도전 과제는 쿼리의 주요 초점을 식별하고, 이미지의 내용을 이해하며, 대상 객체를 정확히 위치시키는 것입니다. 비주얼 그라운딩은 인간과 컴퓨터 간의 상호작용을 더욱 자연스럽고 정확하게 만들 뿐만 아니라, 이미지 주석, 콘텐츠 검색, 장면 이해 등 다양한 분야에서 중요한 응용 가치를 가지고 있습니다.