11일 전

다중모달 트랜스포머를 활용한 엔드투엔드 참조 비디오 객체 세그멘테이션

Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin
다중모달 트랜스포머를 활용한 엔드투엔드 참조 비디오 객체 세그멘테이션
초록

참조 영상 객체 세분화 작업(RVOS)은 주어진 영상의 프레임들에서 텍스트로 참조된 객체 인스턴스를 세분화하는 것을 목표로 한다. 이 다중모달 작업은 텍스트 추론, 영상 이해, 인스턴스 세분화 및 추적을 복합적으로 포함하고 있어 복잡한 성격을 지니고 있기 때문에, 기존의 접근 방식들은 이를 해결하기 위해 복잡한 파이프라인에 의존하는 경우가 많다. 본 논문에서는 RVOS에 대한 간단한 트랜스포머 기반 접근 방식을 제안한다. 제안하는 프레임워크인 다중모달 추적 트랜스포머(Multimodal Tracking Transformer, MTTR)는 RVOS 작업을 시퀀스 예측 문제로 모델링한다. 최근 컴퓨터 비전 및 자연어 처리 분야의 발전에 따라, MTTR는 영상과 텍스트를 단일 다중모달 트랜스포머 모델을 통해 효과적이고 우아하게 처리할 수 있다는 인식에 기반하고 있다. MTTR는 엔드투엔드 학습이 가능하며, 텍스트 관련 유도 편향(Inductive bias) 구성 요소가 없으며, 추가적인 마스크 정제(post-processing) 단계도 필요하지 않다. 따라서 기존 방법들에 비해 RVOS 파이프라인을 크게 단순화한다. 표준 벤치마크에서의 평가 결과, MTTR는 다양한 지표에서 기존 최고 성능을 크게 상회함을 확인하였다. 특히 A2D-Sentences 및 JHMDB-Sentences 데이터셋에서 각각 +5.7, +5.0 mAP의 놀라운 성능 향상을 보였으며, 초당 76프레임의 속도로 처리할 수 있다. 더불어, 연구자들의 주목을 받지 못한 더 도전적인 RVOS 데이터셋인 Refer-YouTube-VOS의 공개 검증 세트에서도 우수한 성능을 기록하였다. 실험 재현을 위한 코드는 https://github.com/mttr2021/MTTR 에서 공개되어 있다.

다중모달 트랜스포머를 활용한 엔드투엔드 참조 비디오 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경