2달 전

EarthVQA: 관계 추론 기반 원격 감지 시각적 질문 응답을 통한 지구 쿼리 가능성 연구

Wang, Junjue ; Zheng, Zhuo ; Chen, Zihang ; Ma, Ailong ; Zhong, Yanfei
EarthVQA: 관계 추론 기반 원격 감지 시각적 질문 응답을 통한 지구 쿼리 가능성 연구
초록

지구 비전 연구는 일반적으로 지리공간 객체의 위치와 범주를 추출하는 데 초점을 맞추지만, 객체 간의 관계 탐색과 종합적인 추론을 소홀히 합니다. 도시 계획 요구에 따라, 우리는 관계적 추론 기반 판단, 카운팅 및 종합 분석을 발전시키기 위해 다중 모달 다중 작업 시각-언어 질문 응답 데이터셋(EarthVQA)을 개발하였습니다. EarthVQA 데이터셋은 6000장의 이미지, 해당하는 의미 마스크, 그리고 도시와 농촌 거버넌스 요구사항이 내재된 208,593개의 질문-응답 쌍을 포함하고 있습니다. 객체가 복잡한 관계적 추론의 기반이 되므로, 우리는 객체 중심 방식으로 VQA를 발전시키기 위한 의미 객체 인식(Semantic OBject Awareness, SOBA) 프레임워크를 제안합니다. SOBA는 정교한 공간 위치와 의미를 유지하기 위해 세그멘테이션 네트워크를 활용하여 객체 의미 생성을 수행합니다. 객체 안내 주의력은 의사 마스크를 통해 객체 내부 특성을 집계하며, 양방향 크로스-주의력은 계층적으로 객체 외부 관계를 모델링합니다. 객체 카운팅 최적화를 위해, 우리는 동적으로 차이 패널티를 추가하는 수치 차이 손실 함수(numerical difference loss)를 제안하여 분류와 회귀 작업을 통합하였습니다. 실험 결과 SOBA는 고급 일반 방법과 원격 감지 방법 모두에서 우수한 성능을 보였습니다. 우리는 이 데이터셋과 프레임워크가 지구 비전의 복잡한 분석에 강력한 벤치마크를 제공할 것이라고 믿습니다. 프로젝트 페이지는 https://Junjue-Wang.github.io/homepage/EarthVQA 입니다.

EarthVQA: 관계 추론 기반 원격 감지 시각적 질문 응답을 통한 지구 쿼리 가능성 연구 | 최신 연구 논문 | HyperAI초신경