CALF: 시계열 예측을 위한 크로스모달 미세조정을 통한 LLM 정렬

딥러닝(예: 트랜스포머)은 다변량 시계열 예측(MTSF)에 널리 성공적으로 사용되어 왔습니다. 기존 방법들이 단일 모달의 시계열 입력으로부터 모델을 학습하는 데 초점을 맞추는 것과 달리, 크로스모달 텍스트와 시계열 입력을 사용하는 대형 언어 모델(LLM) 기반 MTSF 방법들은 최근 제한된 시간 데이터에서도 큰 우수성을 보여주었습니다. 그러나 현재 LLM 기반 MTSF 방법들은 주로 LLM의 적응 및 미세 조정(fine-tuning)에 초점을 맞추고 있으며, 텍스트와 시간 입력 토큰 간의 분포 차이를 무시함으로써 최적의 성능을 발휘하지 못하고 있습니다.이 문제를 해결하기 위해, 우리는 텍스트와 시간 데이터 간의 분포 차이를 줄이는 새로운 크로스모달 LLM 미세 조정(CALF) 프레임워크를 제안합니다. 이 프레임워크는 주로 시간 입력을 사용하는 시간 타겟 브랜치와 정렬된 텍스트 입력을 사용하는 텍스트 소스 브랜치로 구성됩니다. 분포 차이를 줄이기 위해, 우리는 먼저 크로스모달 입력 분포를 정렬하기 위한 크로스모달 매칭 모듈을 개발했습니다. 또한, 특성 공간과 출력 공간에서의 모달 분포 차이를 최소화하기 위해, 두 브랜치 사이의 중간 특성을 정렬하여 더 나은 가중치 업데이트를 수행할 수 있는 특성 규제 손실(feature regularization loss)을 개발하였으며, 출력 일관성 손실(output consistency loss)을 도입하여 두 브랜치의 출력 표현이 효과적으로 대응할 수 있도록 하였습니다.모달 정렬 덕분에, CALF는 낮은 계산 복잡도로 장기 및 단기 예측 작업에서 최신 기술(state-of-the-art) 성능을 달성하며, LLMs에서와 유사한 유리한 few-shot 및 zero-shot 능력을 나타냅니다. 코드는 https://github.com/Hank0626/LLaTA에서 확인할 수 있습니다.