3달 전

Semantic2Graph: 비디오에서 동작 세그멘테이션을 위한 그래프 기반 다중 모달 특징 융합

Junbin Zhang, Pei-Hsuan Tsai, Meng-Hsun Tsai
Semantic2Graph: 비디오에서 동작 세그멘테이션을 위한 그래프 기반 다중 모달 특징 융합
초록

비디오 액션 세그멘테이션은 다양한 분야에 널리 적용되고 있다. 기존 대부분의 연구는 이 목적을 위해 비디오 기반의 비전 모델을 활용해 왔다. 그러나 이러한 접근 방식은 비디오 내 장기적 의존성을 포착하기 위해 일반적으로 큰 수용 영역을 가진 모델이나 LSTM, Transformer 기법에 의존하게 되어 계산 자원 소비가 크다는 단점이 있었다. 이 문제를 해결하기 위해 그래프 기반 모델이 제안되었으나, 이전의 그래프 기반 모델들은 정확도 측면에서 한계가 있었다. 따라서 본 연구는 비디오 내 장기적 의존성을 효과적으로 모델링함으로써 계산 비용을 줄이고 정확도를 향상시키기 위해, 새로운 그래프 구조 기반 접근법인 Semantic2Graph를 제안한다. 우리는 프레임 단위의 비디오에 대해 그래프 구조를 구성하며, 시간적 엣지(timely edges)를 활용하여 비디오 내 시간적 관계와 액션의 순서를 모델링한다. 더불어, 긴 기간 및 짧은 기간의 의미적 관계를 포착하기 위해 긍정적 및 부정적 의미 엣지(semantic edges)를 설계하고, 각각에 맞는 엣지 가중치를 부여하였다. 노드 속성은 비디오 콘텐츠, 그래프 구조, 레이블 텍스트로부터 추출한 다양한 다중 모달 특징을 포함하며, 시각적, 구조적, 의미적 신호를 모두 포함한다. 이러한 다중 모달 정보를 효과적으로 통합하기 위해 그래프 신경망(GNN) 모델을 활용하여 노드의 액션 레이블 분류를 수행한다. 실험 결과, Semantic2Graph는 GTEA 및 50Salads와 같은 벤치마크 데이터셋에서 최신 기술(SOTA) 방법들을 초월하는 성능을 보였다. 여러 가지 제거 실험(Ablation experiments)을 통해 의미적 특징이 모델 성능 향상에 기여함을 추가로 입증하였다. 특히 Semantic2Graph에 의미 엣지를 포함시킴으로써 장기적 의존성을 비용 효율적으로 포착할 수 있음을 확인하였으며, 이는 비디오 기반 비전 모델이 직면하는 계산 자원 제약 문제 해결에 실질적인 유용성을 보여준다.