한 달 전

iSAID: 공중 이미지에서 인스턴스 분할을 위한 대규모 데이터셋

Syed Waqas Zamir; Aditya Arora; Akshita Gupta; Salman Khan; Guolei Sun; Fahad Shahbaz Khan; Fan Zhu; Ling Shao; Gui-Song Xia; Xiang Bai
iSAID: 공중 이미지에서 인스턴스 분할을 위한 대규모 데이터셋
초록

기존의 Earth Vision 데이터셋은 의미 분할 또는 객체 검출에 적합합니다. 본 연구에서는 공중 영상에서 인스턴스 분할을 위한 첫 번째 벤치마크 데이터셋을 소개하는데, 이는 인스턴스 레벨 객체 검출과 픽셀 레벨 분할 작업을 결합한 것입니다. 자연 환경에서의 인스턴스 분할과 비교하여, 공중 영상은 각 이미지당 많은 수의 인스턴스, 큰 객체 크기 변동, 그리고 풍부한 작은 객체 등 독특한 도전 과제를 제시합니다. 우리의 대규모이고 밀도 높게 주석된 공중 영상 인스턴스 분할 데이터셋(iSAID)은 2,806장의 고해상도 이미지에서 15개 카테고리에 걸쳐 655,451개의 객체 인스턴스를 포함하고 있습니다. 각 인스턴스에 대한 이러한 정밀한 픽셀 단위 주석은 상세한 장면 분석에 필수적인 정확한 위치 결정을 보장합니다. 기존의 소규모 공중 영상 기반 인스턴스 분할 데이터셋과 비교하여, iSAID는 객체 카테고리 수가 15배, 인스턴스 수가 5배 더 많습니다. 우리는 자연 환경 이미지를 위한 두 가지 유명한 인스턴스 분할 방법인 Mask R-CNN과 PANet를 사용하여 데이터셋을 벤치마킹했습니다. 실험 결과, 오프더shelf Mask R-CNN 및 PANet를 공중 영상에 직접 적용하면 최적화되지 않은 인스턴스 분할 결과가 제공되므로, 연구 커뮤니티에서 특화된 솔루션이 필요함을 보여주었습니다. 데이터셋은 다음과 같은 URL에서 공개적으로 이용 가능합니다: https://captain-whu.github.io/iSAID/index.html

iSAID: 공중 이미지에서 인스턴스 분할을 위한 대규모 데이터셋 | 최신 연구 논문 | HyperAI초신경