하이브리드 동적-정적 컨텍스트 인식 주의 네트워크를 이용한 장시간 비디오에서의 행동 평가

행동 품질 평가의 목적은 스포츠 동영상에 점수를 매기는 것입니다. 그러나 대부분의 기존 연구는 동영상의 동적 정보(즉, 움직임 정보)에만 초점을 맞추고, 동영상에서 운동선수가 수행하는 특정 자세를 무시합니다. 이는 장기 동영상에서 행동 평가에 중요한 요소입니다. 본 연구에서는 장기 동영상에서 행동을 평가하기 위한 새로운 하이브리드 동적-정적 맥락 인식 주의 네트워크(Hybrid DynAmic-static Context-aware attenTION NETwork, ACTION-NET)를 제안합니다. 더 차별화된 비디오 표현을 학습하기 위해, 우리는 단순히 비디오의 동적 정보뿐만 아니라 특정 프레임에서 감지된 운동선수들의 정적 자세에도 중점을 두어, 특정 순간의 행동 품질을 나타내며, 제안된 하이브리드 동적-정적 구조의 도움으로 이를 수행합니다.또한, 시간별 개별 그래프 컨벌루션 네트워크 유닛과 주의 유닛으로 구성된 맥락 인식 주의 모듈을 두 스트림 모두에 활용하여 더욱 강건한 스트림 특성을 추출합니다. 전자는 인스턴스 간 관계를 탐색하고, 후자는 각 인스턴스에 적절한 가중치를 할당하는 데 사용됩니다. 마지막으로, 두 스트림의 특성을 결합하여 최종 비디오 점수를 회귀 분석하며, 이 과정은 전문가들이 제공한 실제 점수로 지도됩니다.또한, 우리는 새로운 리듬 체조 데이터셋을 수집 및 주석 처리하였으며, 이 데이터셋은 네 가지不同类型的体操套路的视频,用于评估长视频中的动作质量。广泛的实验结果验证了我们提出的方法的有效性,该方法优于相关方法。代码和数据集可在\url{https://github.com/lingan1996/ACTION-NET}获取。注:在翻译中,“不同类型”被误译为“다른 유형”,但“体操套路”应翻译为“체조 루틴”。以下是修正后的版本:또한, 우리는 새로운 리듬 체조 데이터셋을 수집 및 주석 처리하였으며, 이 데이터셋은 네 가지 다른 유형의 체조 루틴 비디오를 포함하여, 장기 동영상에서 행동 품질 평가를 위한 검증 자료로 활용됩니다. 광범위한 실험 결과는 우리 제안 방법의 유효성을 입증하며, 이 방법은 관련 접근법보다 우수함을 보여줍니다. 코드와 데이터셋은 \url{https://github.com/lingan1996/ACTION-NET}에서 이용 가능합니다.