2달 전

OneFormer: 하나의 트랜스포머로 통합 이미지 세그멘테이션을 지배하다

Jitesh Jain; Jiachen Li; MangTik Chiu; Ali Hassani; Nikita Orlov; Humphrey Shi
OneFormer: 하나의 트랜스포머로 통합 이미지 세그멘테이션을 지배하다
초록

ユニ버サル 이미지 세그멘테이션은 새로운 개념이 아닙니다. 지난 수십 년 동안 이미지 세그멘테이션을 통합하기 위한 시도로는 장면 해석(scene parsing), 팬오라믹 세그멘테이션(panoptic segmentation) 그리고 최근에는 새로운 팬오라믹 아키텍처들이 있었습니다. 그러나 이러한 팬오라믹 아키텍처들은 최상의 성능을 달성하기 위해 각각 의미론적, 인스턴스, 또는 팬오라믹 세그멘테이션에 개별적으로 훈련되어야 하므로, 진정한 의미에서 이미지 세그멘테이션을 통합하지는 못합니다. 이상적으로, 진정으로 유니버설한 프레임워크는 한 번만 훈련되어도 세 가지 이미지 세그멘테이션 작업 모두에서 최고의 성능(SOTA)을 달성해야 합니다. 이를 위해 우리는 OneFormer를 제안합니다. OneFormer는 다중 작업을 한 번만 훈련시키는 설계로 세그멘테이션을 통합하는 유니버설 이미지 세그멘테이션 프레임워크입니다.우리는 먼저 각 영역(의미론적, 인스턴스, 및 팬오라믹 세그멘테이션)의 지상 진실(ground truths)을 단일 다중 작업 훈련 과정 내에서 훈련할 수 있도록 하는 작업 조건부 공동 훈련 전략(task-conditioned joint training strategy)을 제안합니다. 둘째로, 현재 작업에 따라 모델을 조건부로 설정할 수 있는 작업 토큰(task token)을 도입하여, 모델이 다중 작업 훈련과 추론을 지원하도록 태스크-다이나믹(task-dynamic)하게 만듭니다. 셋째로, 훈련 중 쿼리-텍스트 대조 손실(query-text contrastive loss)을 사용하여 더 나은 태스크 간 및 클래스 간 구분력을 확립하는 방법을 제안합니다.특히, 우리의 단일 OneFormer 모델은 ADE20k, CityScapes, COCO 데이터셋에서 각각의 세 가지 작업에 대해 개별적으로 훈련된 전문적인 Mask2Former 모델들보다 우수한 성능을 보여주는데, 이는 후자가 각 작업에 대해 3배의 자원으로 개별적으로 훈련되었음에도 불구하고 이루어진 것입니다. 새로운 ConvNeXt와 DiNAT 백본(backbones)을 사용함으로써 더욱 높은 성능 개선을 관찰하였습니다. 우리는 OneFormer가 이미지 세그멘테이션이 더 유니버설하고 접근 가능해지는 데 있어 중요한 단계라고 믿습니다. 추가 연구를 지원하기 위해, 우리는 코드와 모델들을 오픈 소스화하여 https://github.com/SHI-Labs/OneFormer 에 공개하였습니다.

OneFormer: 하나의 트랜스포머로 통합 이미지 세그멘테이션을 지배하다 | 최신 연구 논문 | HyperAI초신경