사람 중심 시각적 지칭 이해

Person-centric Visual Grounding은 텍스트 설명에서 언급된 사람을 이미지에 실제로 나타난 사람과 연결하는 작업을 말합니다. 이 작업은 시각적 정보와 텍스트 정보를 통합하여 특정 개인의 정확한 위치 파악과 인식을 달성하므로, 다중 모달 콘텐츠 이해의 정확성과 효율성을 높입니다. 이 기술은 인간-컴퓨터 상호작용, 지능형 감시, 멀티미디어 정보 검색 등의 분야에서 중요한 응용 가치를 가지고 있습니다.

Who’s Waldo

Who's Waldo