두 개의 머리는 한 개보다 낫다: 시각적 사건 사고를 위한 하이퍼그래프 강화 그래프 추론

비록 정적인 이미지라도 인간은 주어진 이미지의 이전, 현재, 이후뿐 아니라 그 이상의 시점에 걸쳐 다양한 시각적 인과 관계를 추론할 수 있다. 그러나 시간과 공간의 제약으로 인해 모델이 이러한 과제—시각적 사건 추론(visual event ratiocination)—을 수행하는 것은 여전히 도전적인 과제이다. 이를 해결하기 위해 우리는 새로운 다중 모달 모델인 하이퍼그래프 강화 그래프 추론(Hypergraph-Enhanced Graph Reasoning)을 제안한다. 먼저, 동일한 모달리티 내의 콘텐츠를 의미론적 그래프로 표현하고 내부 모달 간 관계를 탐색함으로써 공간 영역의 제약을 극복한다. 이후 그래프 자기주의 강화(Graph Self-Attention Enhancement)를 도입한다. 이는 두 가지 측면에서 기여한다. 첫째, 서로 다른 모달리티에서 생성된 의미론적 그래프 표현이 상호 보완적으로 작용하여 모달 간 관계를 효과적으로 포착할 수 있도록 한다. 둘째, 다양한 시점에서 구축한 다중 모달 하이퍼그래프를 활용하여 개별 의미론적 그래프 표현을 강화함으로써 시간 영역의 제약을 극복한다. 본 연구의 방법은 제안된 강화 기제를 통해 의미론적 그래프 표현이 더 강건해진다는 점에서 “두 개의 머리는 하나보다 낫다”는 사례를 보여준다. 마지막으로, 이러한 표현들을 재투영(re-project)하고, 그 결과를 활용하여 텍스트 기반의 인과 설명을 생성한다. 실험 결과, 기존의 최첨단 기법들과 비교하여 본 모델이 유의미하게 높은 성능을 달성함을 확인할 수 있었다.