2달 전

Panoptic-PartFormer: Panoptic Part Segmentation을 위한 통합 모델 학습

Xiangtai Li; Shilin Xu; Yibo Yang; Guangliang Cheng; Yunhai Tong; Dacheng Tao
Panoptic-PartFormer: Panoptic Part Segmentation을 위한 통합 모델 학습
초록

Panoptic Part Segmentation (PPS)는 팬오라믹 세그멘테이션과 파트 세그멘테이션을 하나의 작업으로 통합하는 것을 목표로 합니다. 이전 연구에서는 주로 서로 다른 접근법을 사용하여 'thing', 'stuff', 그리고 'part' 예측을 개별적으로 처리하였으며, 공유된 계산이나 작업 연관성을 수행하지 않았습니다. 본 연구에서는 이러한 작업들을 아키텍처 수준에서 통합하고자 하며, 처음으로 끝까지 통합된 방법인 Panoptic-PartFormer를 설계하였습니다. 특히, 최근 Vision Transformer의 발전에 영감을 받아, 'thing', 'stuff', 그리고 'part'를 객체 쿼리로 모델링하고, 이 세 가지 예측을 통합된 마스크 예측 및 분류 문제로 직접 최적화하도록 학습하였습니다. 우리는 파트 특징과 'thing'/ 'stuff' 특징을 각각 생성하기 위한 분리된 디코더를 설계하였습니다. 그런 다음 모든 쿼리와 해당 특징을 이용하여 공동으로 그리고 반복적으로 추론할 것을 제안합니다. 최종 마스크는 쿼리와 해당 특징 간의 내적을 통해 얻어질 수 있습니다. 광범위한 아블레이션 연구와 분석은 우리의 프레임워크의 유효성을 입증합니다. 우리의 Panoptic-PartFormer는 Cityscapes PPS와 Pascal Context PPS 데이터셋에서 최소 70%의 GFlops 감소와 50%의 매개변수 감소를 통해 새로운 최고 성능 결과를 달성하였습니다. 특히, ResNet50 백본을 사용할 때 3.4%의 상대적인 향상이 이루어졌으며, Swin Transformer를 도입한 후에는 Pascal Context PPS 데이터셋에서 10%의 향상을 보였습니다. 우리 지식范围内, 우리는 처음으로 \textit{통합되고 끝까지 연결된 트랜스포머 모델}을 통해 PPS 문제를 해결하였습니다. 그 효과성과 개념적 단순함 덕분에, 우리는 Panoptic-PartFormer가 좋은 기준점이 되고 앞으로의 PPS 통합 연구에 도움이 되기를 바랍니다. 우리의 코드와 모델은 https://github.com/lxtGH/Panoptic-PartFormer에서 제공됩니다.注:最后一句中的“範圍内”是中文,可能是原文档中的错误。正确的韩文翻译应该是:우리 지식 범위 내에서, 우리는 처음으로 \textit{통합되고 끝까지 연결된 트랜스포머 모델}을 통해 PPS 문제를 해결하였습니다.

Panoptic-PartFormer: Panoptic Part Segmentation을 위한 통합 모델 학습 | 최신 연구 논문 | HyperAI초신경