2달 전

그라미안 다중모달 표현 학습 및 정렬

Giordano Cicchetti; Eleonora Grassucci; Luigi Sigillo; Danilo Comminiello
그라미안 다중모달 표현 학습 및 정렬
초록

인간의 인식은 시각, 청각, 언어 등 여러 모달을 통합하여 주변 현실에 대한 통합된 이해를 형성합니다. 최근 다중모달 모델들은 대조 학습을 통해 모달 쌍들을 정렬함으로써 상당한 진전을 이룩하였지만, 여러 모달로 확장할 때 이러한 해결책들은 적절하지 않습니다. 이러한 모델들은 일반적으로 각 모달을 지정된 앵커에 맞추되 모든 모달 간의 정렬을 보장하지 않아, 여러 모달의 공동 이해가 필요한 작업에서 성능이 최적화되지 않는 문제를 초래합니다. 본 논문에서는 다중모달 학습의 쌍별 전통적인 접근 방식을 구조적으로 재고하고, 위에서 언급한 제약 사항들을 극복하는 새로운 그라미안 표현 정렬 측도(GRAM)를 제시합니다. GRAM은 각 모달 벡터가 생성하는 $k$-차원 평행다면체의 그라미안 부피를 최소화하여, 고차원 공간에서 $n$개의 모달들을 직접 학습하고 정렬함으로써 모든 모달 간의 기하학적 정렬을 동시에 보장합니다. GRAM은 2개부터 $n$개까지의 모달에 대해 적용될 수 있으며, 기존 유사도 측도보다 더 의미 있는 정렬을 제공할 수 있어 어떤 하류 방법에서도 코사인 유사도를 대체할 수 있습니다. 새로운 GRAM 기반 대조 손실 함수는 고차원 임베딩 공간에서 다중모달 모델들의 정렬을 향상시키며, 비디오-음성-텍스트 검색 및 음성-비디오 분류와 같은 하류 작업에서 새로운 최고 수준의 성능을 달성하였습니다. 프로젝트 페이지, 코드 및 사전 훈련된 모델은 https://ispamm.github.io/GRAM/ 에서 확인할 수 있습니다.