2달 전

토큰 레벨 대조 학습과 모달리티 인식 프롬프팅을 활용한 다중 모달 의도 인식

Qianrui Zhou; Hua Xu; Hao Li; Hanlei Zhang; Xiaohan Zhang; Yifan Wang; Kai Gao
토큰 레벨 대조 학습과 모달리티 인식 프롬프팅을 활용한 다중 모달 의도 인식
초록

다중 모드 의도 인식은 표정, 몸동작, 말투 등 다양한 모드를 활용하여 사용자의 의도를 이해하는 것을 목표로 하며, 실제 다중 모드 상황에서 인간 언어와 행동을 이해하는 데 있어 중요한 과제를 구성합니다. 그러나 기존의 대부분 방법은 다른 모드 간의 잠재적인 상관관계를 무시하고 비언어적 모드에서 의미 특성을 효과적으로 학습하는 데 한계가 있습니다. 본 논문에서는 이러한 문제들을 해결하기 위해 모드 인식 프롬프팅(TCL-MAP)을 적용한 토큰 수준 대조학습 방법을 제안합니다. 텍스트 모드에 최적의 다중 모드 의미 환경을 구축하기 위해 우리는 유사성 기반 모드 정렬과 교차 모드 주의 메커니즘을 사용하여 텍스트, 비디오, 오디오 모드의 특성을 효과적으로 정렬하고 융합하는 모드 인식 프롬프팅 모듈(MAP)을 개발하였습니다. 제안된 토큰 수준 대조학습 프레임워크(TCL)는 모드 인식 프롬프팅과 실제 라벨을 바탕으로 확장 샘플을 생성하고 NT-Xent 손실 함수를 라벨 토큰에 적용합니다. 특히, TCL은 의도 라벨로부터 얻은 최적의 텍스트 의미 정보를 이용하여 다른 모드들의 학습 과정을 안내하는데 역할을 합니다. 광범위한 실험 결과는 우리의 방법이 최신 기법들에 비해 눈에 띄는 개선점을 보였음을 입증하였습니다. 또한, 아블레이션 분석은 수작업으로 만든 프롬프팅보다 모드 인식 프롬프팅이 우수함을 보여주며, 이는 다중 모드 프롬프팅 학습에 큰 의미가 있습니다. 코드는 https://github.com/thuiar/TCL-MAP 에서 제공됩니다.

토큰 레벨 대조 학습과 모달리티 인식 프롬프팅을 활용한 다중 모달 의도 인식 | 최신 연구 논문 | HyperAI초신경