2달 전

지반 상황 인식

Pratt, Sarah ; Yatskar, Mark ; Weihs, Luca ; Farhadi, Ali ; Kembhavi, Aniruddha
초록

우리는 지상 상황 인식(Grounded Situation Recognition, GSR)이라는 작업을 소개합니다. 이 작업은 이미지를 설명하는 구조화된 의미 요약을 생성해야 하는데, 여기에는 주요 활동, 활동에 참여한 실체와 그들의 역할(예: 주체(agent), 도구(tool)), 그리고 실체의 바운딩 박스(bounding-box) 위치 정보가 포함됩니다. GSR은 중요한 기술적 과제를 제시합니다: 의미적인 주요성 식별, 다양한 종류의 많은 실체들을 범주화하고 위치 결정, 의미적 희소성을 극복, 그리고 역할 해석의 모호성 해결 등이 있습니다. 또한 캡셔닝과 달리 GSR은 평가하기 쉽습니다. 이 새로운 작업을 연구하기 위해 우리는 imsitu 데이터셋의 11,538개 실체 클래스에 278,336개의 바운딩 박스 위치 정보를 추가하여 상황과 위치 정보(Situations With Groundings, SWiG) 데이터셋을 생성했습니다. 우리는 연합 상황 위치 추정기(Joint Situation Localizer)를 제안하며, 이는 전체 위치 평가 척도에서 독립적인 학습보다 최대 8%에서 32%까지 상대적으로 우수한 성능을 보입니다. 마지막으로, 우리의 모델이 가능하게 하는 세 가지 흥미로운 미래 방향에 대한 초기 결과를 보여드립니다: 조건부 질의(conditioned querying), 시각적 연결(visual chaining), 그리고 지상화된 의미 인식 이미지 검색(grounded semantic aware image retrieval)입니다. 코드와 데이터는 https://prior.allenai.org/projects/gsr 에서 제공됩니다.

지반 상황 인식 | 최신 연구 논문 | HyperAI초신경