2달 전

Weakly-supervised Temporal Action Localization에서의 Foreground와 Background 분리 재검토: 클러스터링 기반 접근법

Qinying Liu; Zilei Wang; Shenghai Rong; Junjie Li; Yixin Zhang
Weakly-supervised Temporal Action Localization에서의 Foreground와 Background 분리 재검토: 클러스터링 기반 접근법
초록

약한 감독 하의 시계열 행동 위치 추정은 비디오 레벨 행동 라벨만을 사용하여 비디오 내의 행동 인스턴스를 위치 추정하는 것을 목표로 합니다. 기존 방법들은 주로 비디오 분류 손실을 사용하여 조각(snippet) 수준 예측을 최적화하는 분류를 통한 위치 추정 파이프라인을 채택합니다. 그러나 이 접근법은 분류와 검출 사이의 불일치로 인해 전경과 배경(F&B) 조각을 정확히 구분하지 못하는 문제를 가지고 있습니다. 이러한 문제를 완화하기 위해, 우리는 비디오 분류 손실에 지过渡依赖,而是利用无监督片段聚类来探索片段之间的潜在结构。具体来说,我们提出了一种基于聚类的新型F&B分离算法。该算法包含两个核心组件:一个片段聚类组件,将片段分组为多个潜在聚类;以及一个聚类分类组件,进一步将聚类分类为前景区或背景区。由于没有真实标签来训练这两个组件,我们引入了一种基于最优传输的统一自我标记机制,以生成高质量的伪标签,这些伪标签符合几种合理的先验分布。这确保了片段的聚类分配可以准确地与其F&B标签相关联,从而提高了F&B分离的效果。我们在三个基准数据集上评估了我们的方法:THUMOS14、ActivityNet v1.2和v1.3。我们的方法在这三个基准数据集上均取得了有希望的性能,并且比以前的方法显著更轻量级。代码可在https://github.com/Qinying-Liu/CASE获取。注:在翻译过程中,“过渡依赖”被误译成了中文,正确的韩文翻译如下:약한 감독 하의 시계열 행동 위치 추정은 비디오 레벨 행동 라벨만을 사용하여 비디오 내의 행동 인스턴스를 위치 추정하는 것을 목표로 합니다. 기존 방법들은 주로 비디오 분류 손실을 사용하여 조각(snippet) 수준 예측을 최적화하는 분류를 통한 위치 추정 파이프라인을 채택합니다. 그러나 이 접근법은 분류와 검출 사이의 불일치로 인해 전경과 배경(F&B) 조각을 정확히 구분하지 못하는 문제를 가지고 있습니다. 이러한 문제를 완화하기 위해, 우리는 비디오 분류 손실에 지나치게 의존하지 않고, 무감독 조각 클러스터링을 활용하여 조각 간의 잠재적인 구조를 탐색하도록 제안합니다. 구체적으로, 우리는 클러스터링 기반의 새로운 F&B 분리 알고리즘을 제안합니다. 이 알고리즘은 두 가지 핵심 구성 요소로 이루어져 있습니다: 하나는 조각들을 여러 잠재 클러스터로 그룹화하는 조각 클러스터링 구성 요소이고, 다른 하나는 클러스터를 전경 또는 배경으로 더 나아가서 분류하는 클러스터 분류 구성 요소입니다. 이 두 구성 요소를 훈련시키기 위한 실제 라벨이 없기 때문에, 우리는 최적 운송(optimal transport) 기반의 통합 자기 라벨링 메커니즘을 도입하여 몇 가지 가능한 사전 확률 분포에 부합하는 고품질 가짜 라벨(pseudo-labels)을 생성합니다. 이를 통해 조각들의 클러스터 할당이 F&B 라벨과 정확하게 연관될 수 있도록 보장함으로써 F&B 분리를 강화할 수 있습니다. 우리의 방법은 세 개의 벤치마크 데이터셋에서 평가되었습니다: THUMOS14, ActivityNet v1.2 및 v1.3. 우리의 방법은 모든 세 벤치마크에서 유망한 성능을 달성하였으며, 이전 방법들보다 상당히 경량화되어 있다는 점에서도 주목할 만합니다. 코드는 https://github.com/Qinying-Liu/CASE에서 확인할 수 있습니다.修正后的翻译:약한 감독 하의 시계열 행동 위치 추정은 비디오 레벨 행동 라벨만을 사용하여 비디오 내의 행동 인스턴스를 위치 추정하는 것을 목표로 합니다. 기존 방법들은 주로 비디오 분류 손실을 사용하여 조각(snippet) 수준 예측을 최적화하는 분류를 통한 위치 추정 파이프라인을 채택합니다. 그러나 이 접근법은 분류와 검출 사이의 불일치로 인해 전경과 배경(F&B) 조각들을 정확히 구분하지 못하는 문제가 발생합니다. 이를 해결하기 위해, 우리는 비디오 분류 손실에 지나치게 의존하지 않고 무감독 조각 클러스터링을 활용하여 조각들 간의 잠재적인 구조를 탐색하도록 제안합니다. 특히, 우리는 클러스터링 기반의 새로운 F&B 구분 알고리즘을 제안하는데, 이 알고리즘은 두 가지 핵심 구성 요소로 이루어져 있습니다: 하나는 조각들을 여러 잠재 클러스터로 그룹화하는 조각 클러스터링 구성 요소이고, 다른 하나는 각 클러스터를 전경이나 배경으로 더 나아가서 분류하는 클러스터 분류 구성 요소입니다. 이러한 두 구성 요소를 훈련시키기 위한 실제 라벨이 없으므로, 우리는 최적 운송(optimal transport) 기반의 통합 자기 라벨링 메커니즘을 도입하여 몇 가지 가능한 사전 확률분포에 부합하는 고품질 가짜 라벨(pseudo-labels)들을 생성하였습니다. 이렇게 함으로써 조각들의 클러스터 할당이 F&B 라벨들과 정확하게 연관될 수 있도록 보장하며, 결과적으로 F&B 구분 성능이 향상됩니다. 우리의 방법론은 THUMOS14, ActivityNet v1.2 및 v1.3라는 세 가지 벤치마크 데이터셋에서 평가되었으며, 모든 벤치마크에서 유망한 성능 결과를 얻었습니다. 또한 이 방법론은 이전 연구들보다 상당히 경량화된 특성을 가지고 있어 효율성이 증명되었습니다.코드는 다음 링크에서 확인 가능합니다: https://github.com/Qinying-Liu/CASE

Weakly-supervised Temporal Action Localization에서의 Foreground와 Background 분리 재검토: 클러스터링 기반 접근법 | 최신 연구 논문 | HyperAI초신경