17일 전

이미지 캡셔닝을 위한 메시드 메모리 트랜스포머

Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara
이미지 캡셔닝을 위한 메시드 메모리 트랜스포머
초록

기반 트랜스포머 아키텍처는 기계 번역 및 언어 이해와 같은 시퀀스 모델링 작업에서 최첨단 성능을 보이고 있다. 그러나 이미지 캡션 생성과 같은 다중 모달 환경에 대한 적용 가능성은 여전히 거의 탐색되지 않은 영역이다. 이러한 격차를 메우기 위해, 우리는 이미지 캡션 생성을 위한 메쉬형 메모리 트랜스포머(M²)를 제안한다. 이 아키텍처는 이미지 인코딩 및 언어 생성 단계를 모두 개선한다. 먼저, 이미지 영역 간의 관계에 대한 다수준 표현을 학습하며, 학습된 사전 지식을 통합한다. 또한 디코딩 단계에서 메쉬 구조적 연결을 활용하여 저수준 및 고수준 특징을 효과적으로 활용한다. 실험적으로 우리는 M² 트랜스포머와 다양한 완전한 어텐션 모델의 성능을 순환 모델과 비교하여 분석한다. COCO 데이터셋에서 테스트한 결과, 본 연구의 제안 모델은 'Karpathy' 테스트 분할 및 온라인 테스트 서버에서 단일 모델 및 앙상블 구성 모두에서 새로운 최고 성능을 달성하였다. 또한 학습 데이터셋에 등장하지 않은 객체를 설명하는 능력에 대해서도 성능을 평가하였다. 학습된 모델과 실험 재현을 위한 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/aimagelab/meshed-memory-transformer.