다중 모드 규칙을 활용한 정보 시각화 스토리텔링

시각적 스토리텔링 분야의 기존 방법들은 이미지에 많은 의미 있는 내용이 포함되어 있음에도 불구하고 일반적인 설명을 생성하는 문제를 자주 겪습니다. 정보가 풍부한 스토리 생성의 실패는 모델이 충분한 의미 있는 개념을 포착하지 못하는 능력 부족으로 귀결될 수 있습니다. 이러한 개념의 범주는 엔티티, 속성, 행동, 그리고 이벤트를 포함하며, 일부 경우에는 지상화된 스토리텔링에 결정적으로 중요합니다. 이 문제를 해결하기 위해 우리는 시각 입력이 주어졌을 때 모델이 이러한 정보가 풍부한 개념들을 추론하도록 돕기 위한 다중 모달 규칙을 채굴하는 방법을 제안합니다. 먼저 CNN 활성화와 단어 인덱스를 연결하여 다중 모달 트랜잭션을 구축합니다. 그런 다음 연관 규칙 채굴 알고리즘을 사용하여 다중 모달 규칙을 채굴하는데, 이 규칙은 개념 추론에 사용됩니다. 다중 모달 규칙의 도움으로 생성된 스토리는 더욱 지상화되고 정보가 풍부해집니다. 또한, 제안된 방법은 해석 가능성, 확장성, 그리고 전송 가능성을 갖추고 있어 더 넓은 응용 가능성을 보여줍니다. 마지막으로, 우리는 이러한 개념들을 어텐션 메커니즘을 적용한 인코더-디코더 프레임워크에서 활용합니다. VIsual StoryTelling (VIST) 데이터셋에서 여러 실험을 수행하였으며, 그 결과는 자동 평가 지표와 인간 평가 모두에서 우리의 접근 방식의 효과성을 입증하였습니다. 또한 추가 실험에서는 우리가 채굴한 다중 모달 규칙이 작은 데이터셋에서 학습할 때 모델의 성능 향상을 돕는다는 것을 보여주었습니다.