2달 전

클래스 무관 객체 검출을 위한 다중 모달 트랜스포머

Maaz, Muhammad ; Rasheed, Hanoona ; Khan, Salman ; Khan, Fahad Shahbaz ; Anwer, Rao Muhammad ; Yang, Ming-Hsuan
클래스 무관 객체 검출을 위한 다중 모달 트랜스포머
초록

객체를 구성하는 요소는 무엇인가? 이는 컴퓨터 비전 분야에서 오랫동안 논의되어온 질문입니다. 이 목표를 달성하기 위해, 객체성을 평가하기 위한 많은 학습 기반 및 비학습 기반 접근법들이 개발되었습니다. 그러나 이러한 방법들은 일반적으로 새로운 영역과 미지의 객체에 대해 잘 확장되지 않습니다. 본 논문에서는 기존 방법들이 인간이 이해할 수 있는 의미론에 의해 지배되는 상향식 감독 신호를 부족하고 있다고 주장합니다. 문헌상 처음으로, 정렬된 이미지-텍스트 쌍으로 훈련된 다중 모달 비전 트랜스포머(MViT)가 이러한 간극을 효과적으로 메울 수 있음을 입증합니다.우리의 다양한 영역과 미지의 객체에 대한 광범위한 실험은 MViT가 이미지 내에서 일반적인 객체를 위치 결정하는 데 있어 최신 성능을 보임을 보여줍니다. 기존 MViTs가 다중 스케일 특징 처리를 포함하지 않고, 일반적으로 더 긴 훈련 일정을 필요로 한다는 관찰 결과에 근거하여, 우리는 다중 스케일 변형 주의(multi-scale deformable attention)와 후기 시각-언어 융합(late vision-language fusion)을 사용하여 효율적인 MViT 아키텍처를 개발하였습니다.또한, MViT 제안들의 중요성을 오픈 월드 객체 검출, 주요 객체 검출 및 위장 객체 검출, 지도 및 자기지도 검출 작업 등 다양한 응용 분야에서 보여주었습니다. 더욱이, MViTs는 특정 언어 쿼리를 제공받아 적응적으로 제안을 생성할 수 있으므로 상호 작용성이 향상됩니다. 코드: \url{https://git.io/J1HPY}.

클래스 무관 객체 검출을 위한 다중 모달 트랜스포머 | 최신 연구 논문 | HyperAI초신경