2달 전

BAM-DETR: 비디오에서 시간적 문장 정합을 위한 경계 일치 모멘트 탐지 트랜스포머

Lee, Pilhyeon ; Byun, Hyeran
BAM-DETR: 비디오에서 시간적 문장 정합을 위한 경계 일치 모멘트 탐지 트랜스포머
초록

시간 문장 정렬은 언어 설명과 관련된 순간을 위치화하는 것을 목표로 합니다. 최근에 DETR 유사 접근법들은 타겟 순간의 중심과 길이를 예측함으로써 주목할 만한 진전을 이루었습니다. 그러나 이러한 방법들은 순간의 중심에 대한 본질적인 모호성으로 인해 발생하는 중심 오류 문제로 인해 부정확한 예측을 하곤 합니다. 이 문제를 해결하기 위해, 우리는 새로운 경계 지향적 순간 표현 방식을 제안합니다. 우리의 패러다임에서는 모델이 정확한 중심을 찾는 대신, 그 구간 내에서 어떤 앵커 포인트라도 예측하면 충분하며, 이를 통해 경계가 직접 추정됩니다. 이 아이디어를 바탕으로, 우리는 글로벌 및 경계 집중적 주의 메커니즘을 각각 사용하여 앵커와 경계를 병렬 경로에서 개선하는 이원 경로 디코딩 과정을 갖춘 경계 정렬형 순간 검출 트랜스포머를 설계하였습니다. 이러한 분리된 설계는 모델이 원하는 영역에 집중할 수 있게 하여 순간 예측의 정밀한 개선을 가능하게 합니다. 또한, 우리는 높은 위치화 품질을 가진 제안들이 불완전한 제안들보다 우선적으로 처리되도록 하는 품질 기반 순위 결정 방법도 제안합니다. 세 가지 벤치마크에서 수행된 실험들은 제안된 방법들의 효과성을 검증하였습니다. 코드는 https://github.com/Pilhyeon/BAM-DETR 에서 제공됩니다.

BAM-DETR: 비디오에서 시간적 문장 정합을 위한 경계 일치 모멘트 탐지 트랜스포머 | 최신 연구 논문 | HyperAI초신경