12일 전

이미지 스트림을 활용한 장면 그래프 기반 서사 생성

{Xuanjing Huang, Qi Zhang, Piji Li, Zhongyu Wei, Ruize Wang}
초록

시각적 스토리텔링은 이미지 스트림으로부터 이야기를 생성하는 것을 목표로 한다. 기존의 대부분의 방법들은 추출된 고수준 특징을 직접 이미지로 표현하는 방식을 취하는데, 이는 직관적이지 않고 해석하기 어려운 문제가 있다. 우리는 각 이미지를 그래프 기반의 의미 표현, 즉 장면 그래프(scene graph)로 변환하는 것이 이미지를 더 효과적으로 표현하고 설명하는 데 도움이 될 수 있다고 주장한다. 장면 그래프는 이미지 내 감지된 객체와 관계를 명시적으로 인코딩하기 때문이다. 이를 위해 우리는 장면 그래프 상의 이중 수준 관계를 모델링하는 새로운 그래프 기반 아키텍처를 제안한다. 특히, 이미지 내 수준에서는 그래프 컨볼루션 네트워크(GCN)를 활용하여 장면 그래프 상의 객체에 대한 지역적 세부 영역 표현을 풍부하게 한다. 또한 이미지 간 상호작용을 더 잘 모델링하기 위해, 이미지 간 수준에서는 시간적 차원을 따라 영역 표현을 개선하기 위해 시간 컨볼루션 네트워크(TCN)를 사용한다. 이후 관계 인지 표현은 어텐션 메커니즘을 갖춘 게이트드 순환 단위(GRU)에 입력되어 스토리 생성을 수행한다. 공개된 시각적 스토리텔링 데이터셋을 대상으로 실험을 수행한 결과, 자동 평가 및 인간 평가 모두에서 제안한 방법이 최고 수준의 성능을 달성함을 확인하였다.

이미지 스트림을 활용한 장면 그래프 기반 서사 생성 | 최신 연구 논문 | HyperAI초신경