8일 전

그래프 신경망을 활용한 비디오 캡션 생성을 위한 액션 지식

{Cheol Jeong, Fikriansyah Adzaka, Bahy Helmi Hartoyo Putra, Vania Velda, Willy Fitra Hendria}
초록

기존의 영상 캡셔닝 방법들은 동작 인식 모델에서 추출한 특징을 활용하여 영상 내 동작 정보를 포착한다. 그러나 개체별 표현 없이 동작 특징을 직접 사용할 경우, 개체 간의 상호작용을 충분히 포착하기 어려울 수 있다. 그 결과, 생성된 캡셔닝 문장이 장면 내 동작과 개체를 정확하게 설명하지 못할 수 있다. 이 문제를 해결하기 위해, 본 연구에서는 그래프 신경망에서 노드를 개체로 표현하고, 동작 특징을 간선 특징으로 통합함으로써 개체-동작-개체 관계의 보다 세밀한 시각적 표현을 가능하게 한다. 기존의 그래프 기반 영상 캡셔닝 방법들은 일반적으로 사전 학습된 개체 탐지 모델을 사용하여 노드 표현을 생성했다. 그러나 개체 탐지 모델은 일부 중요한 개체를 탐지하지 못할 수 있다. 이 문제를 완화하기 위해, 본 연구는 영상 프레임의 격자 단위에서 추출한 특징을 이용해 노드를 표현하는 격자 기반 노드 표현 방식을 도입한다. 이 표현 방식을 통해 장면 내 중요한 개체들을 보다 철저하게 포착할 수 있다. 추론 과정에서 추가적인 복잡성을 도입하지 않기 위해, 제안하는 그래프의 지식은 지식 증류(Knowledge Distillation)를 통해 다른 신경망으로 전이된다. 제안한 방법은 MSVD와 MSR-VTT라는 두 가지 대표적인 영상 캡셔닝 데이터셋에서 모든 평가 지표에서 최신 기술(SOTA) 성능을 달성하였다. 본 연구에서 제안하는 방법의 코드는 다음 링크에서 공개되어 있다: https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023.

그래프 신경망을 활용한 비디오 캡션 생성을 위한 액션 지식 | 최신 연구 논문 | HyperAI초신경