
프레임 간의 대응 관계는 비디오에서 동적 콘텐츠에 대한 풍부한 정보를 담고 있습니다. 그러나 이러한 대응 관계의 불규칙한 구조와 복잡한 역학特徵由于其不规则的结构和复杂的动态特性,有效地捕捉和学习这些关系具有挑战性。在本文中,我们提出了一种新的神经网络,该网络通过聚合潜在对应关系中的信息来学习视频表示。该网络称为$CPNet$,可以学习具有时间一致性的演化2D场。特别是,它可以通过仅使用RGB输入来有效混合外观和长距离运动,从而学习视频表示。我们进行了广泛的消融实验以验证我们的模型。CPNet在Kinetics数据集上表现出比现有方法更强的性能,并在Something-Something和Jester数据集上达到了最先进的性能。我们对模型的行为进行了分析,并展示了其对提议错误的鲁棒性。修正后的翻译如下:비디오에서 프레임 간의 대응 관계는 동적 콘텐츠에 대한 풍부한 정보를 담고 있습니다. 그러나 이들 대응 관계의 불규칙한 구조와 복잡한 역학 특성 때문에 이를 효과적으로 포착하고 학습하는 것은 어려운 문제입니다. 본 논문에서는 잠재적인 대응 관계로부터 정보를 집약하여 비디오 표현을 학습하는 새로운 신경망을 제안합니다. 이 신경망은 $CPNet$으로 명명되었으며, 시간 일관성을 갖는 진화하는 2D 필드를 학습할 수 있습니다. 특히, $CPNet$은 RGB 입력만을 사용하여 외형과 장거리 운동을 효과적으로 혼합하여 비디오 표현을 학습할 수 있습니다. 우리는 광범위한 소거 실험(ablation experiments)을 수행하여 모델을 검증하였습니다. CPNet은 Kinetics 데이터셋에서 기존 방법보다 우수한 성능을 보였으며, Something-Something 및 Jester 데이터셋에서 최신 기술(state-of-the-art) 성능을 달성하였습니다. 또한, 모델의 행동에 대한 분석을 제공하고, 제안 오류에 대한 강건성(robustness)을 보여주었습니다.