사진 앨범에 대한 서사 문단을 자동으로 생성하는 것을 목표로 하는 시각적 스토리텔링은 사진 앨범 콘텐츠의 복잡성과 다양성으로 인해 여전히 큰 도전 과제로 남아 있다. 또한 오픈 도메인 사진 앨범은 광범위한 주제를 포함하고 있어, 사진 앨범을 설명하는 데 사용되는 어휘와 표현 스타일이 매우 다양하다. 본 연구에서는 위의 문제들을 해결하기 위해 계층적 BERT 의미 지도(Hierarchical BERT Semantic Guidance, HBSG)를 활용한 새로운 교사-학생 시각적 스토리텔링 프레임워크를 제안한다. 제안된 교사 모듈은 두 가지 공동 작업으로 구성된다. 첫째, 단어 수준의 잠재 주제 생성이며, 둘째, 의미 지도형 문장 생성이다. 첫 번째 작업은 이야기의 잠재 주제를 예측하는 것을 목표로 한다. 실제 주제 정보(ground-truth)가 없기 때문에, 시각적 콘텐츠와 주석이 달린 스토리 기반으로 사전 학습된 BERT 모델을 활용하여 주제를 탐색한다. 이후 이 주제 벡터는 설계된 이미지-주제 예측 모델로 정제된다. 의미 지도형 문장 생성 작업에서는 HBSG를 두 가지 목적을 위해 도입한다. 첫째, 다양한 주제 간 언어 복잡성을 줄이는 것이다. 이를 위해 시각 정보와 의미 정보를 동시에 고려하는 공통 주의( co-attention ) 디코더를 설계하여, 잠재 주제를 활용해 주제 관련 언어 모델을 유도한다. 둘째, 문장의 의미를 온라인 외부 언어 지식 교사 모듈로 활용한다. 마지막으로, 보조 손실 함수를 제안하여 언어 지식을 언어 생성 모델로 전환한다. 다양한 실험을 통해 HBSG 프레임워크의 효과성을 입증하였으며, VIST 테스트 세트에서 기존 최고 성능(SOTA) 방법들을 능가함을 확인하였다.