11일 전

효율적인 비디오 객체 세그멘테이션을 위한 개선된 메모리 커버리지로 인한 공간-시간 네트워크의 재고찰

Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang
효율적인 비디오 객체 세그멘테이션을 위한 개선된 메모리 커버리지로 인한 공간-시간 네트워크의 재고찰
초록

본 논문은 영상 객체 세그멘테이션 맥락에서 공간-시간 대응 관계를 모델링하기 위한 간단하면서도 효과적인 접근법을 제안한다. 기존 대부분의 방법들과 달리, 각 객체에 대해 마스크 특징을 다시 인코딩하지 않고 프레임 간 직접적인 대응 관계를 설정함으로써, 매우 효율적이고 강건한 프레임워크를 구축한다. 이러한 대응 관계를 기반으로, 현재 쿼리 프레임의 각 노드는 과거 프레임의 특징을 연관성 있는 방식으로 집계하여 추론된다. 우리는 이 집계 과정을 투표 문제로 재정의하였으며, 기존의 내적 곱 유사도는 고정된 소규모 메모리 노드 집합이 쿼리에 관계없이 항상 투표를 지배하게 하여 메모리의 효율적 활용이 부족함을 발견하였다. 이러한 현상에 기반하여, 유사도 계산에 음의 제곱 유클리드 거리( negative squared Euclidean distance)를 사용하는 새로운 방안을 제안한다. 검증 결과, 이제 모든 메모리 노드가 기여할 기회를 가지며, 실험적으로 이러한 다양화된 투표 방식이 메모리 효율성과 추론 정확도 양면에서 유리함을 입증하였다. 대응 네트워크와 다양화된 투표의 상호작용은 매우 뛰어난 성능을 발휘하여, DAVIS 및 YouTubeVOS 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였으며, 복잡한 부가 기능 없이도 다중 객체에 대해 20 FPS 이상의 빠른 속도로 실행 가능하다.

효율적인 비디오 객체 세그멘테이션을 위한 개선된 메모리 커버리지로 인한 공간-시간 네트워크의 재고찰 | 최신 연구 논문 | HyperAI초신경