17일 전

이미지 캡션 생성을 위한 빠른 엔드 투 엔드 훈련에서 다중 시퀀스 길이 활용하기

Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi
이미지 캡션 생성을 위한 빠른 엔드 투 엔드 훈련에서 다중 시퀀스 길이 활용하기
초록

우리는 시퀀스 내 요소의 수에 제약을 받지 않고 입력을 처리할 수 있는 '확장 기법(Expansion mechanism)'을 제안한다. 이를 통해 기존의 전통적인 어텐션 기반 접근법에 비해 모델이 보다 효과적으로 학습할 수 있다. 이 주장을 뒷받침하기 위해, MS COCO 2014 이미지 설명 생성 챌린지에서 뛰어난 성과를 달성한 새로운 아키텍처인 ExpansionNet v2를 설계하였으며, 해당 분야에서 최신 기술(SOTA) 수준의 성능을 기록했다. 특히 오프라인 테스트 분할에서 143.7 CIDErD, 온라인 평가 서버에서 140.8 CIDErD, 그리고 nocaps 검증 세트에서 72.9 AllCIDEr의 점수를 기록하였다. 또한 기존 대안 대비 최대 2.8배 빠른 엔드 투 엔드 학습 알고리즘을 도입하였다. 소스 코드는 다음 주소에서 확인할 수 있다: https://github.com/jchenghu/ExpansionNet_v2