2달 전

VLLMs는 상식 추론을 통해 감정 이해에 더 나은 맥락을 제공합니다.

Alexandros Xenos; Niki Maria Foteinopoulou; Ioanna Ntinou; Ioannis Patras; Georgios Tzimiropoulos
VLLMs는 상식 추론을 통해 감정 이해에 더 나은 맥락을 제공합니다.
초록

상황에 따른 감정 인식은 주변 장면의 맥락적 힌트를 고려하여 개인의 표면적인 감정을 식별하는 것을 포함합니다. 이 과제에 대한 이전 접근 방식은 명시적인 장면 인코딩 아키텍처 설계나 캡션과 같은 외부 장면 관련 정보의 통합을 포함했습니다. 그러나 이러한 방법들은 종종 제한된 맥락적 정보를 활용하거나 복잡한 학습 파이프라인에 의존합니다. 본 연구에서는 Vision-and-Large-Language Models (VLLMs)의 혁신적인 기능을 활용하여 학습 과정의 복잡성을 증가시키지 않고 두 단계 접근법으로 상황에 따른 감정 분류를 개선하였습니다. 첫 번째 단계에서, 우리는 VLLMs에게 시각적 맥락에 대한 주제의 표면적인 감정을 자연어로 설명하도록 유도하는 프롬프팅 방법을 제안합니다. 두 번째 단계에서는 이러한 설명들이 맥락적 정보로 사용되며, 이미지 입력과 함께 텍스트와 시각적 특성을 융합한 트랜스포머 기반 아키텍처를 최종 분류 작업 전에 학습시키는 데 이용됩니다. 실험 결과, 텍스트와 이미지 특성이 보완적인 정보를 제공하며, 복잡한 학습 방법 없이 우리의 융합 아키텍처가 개별 모달리티보다 현저히 우수한 성능을 보임을 확인하였습니다. 우리는 EMOTIC, CAER-S, BoLD 세 가지 다른 데이터셋에서 접근 방식을 평가하였으며, 이들 데이터셋과 지표 모두에서 훨씬 더 복잡한 접근 방식들과 비교해 최고 수준 또는 유사한 정확도를 달성하였습니다. 코드는 다음과 같이 공개될 예정입니다: https://github.com/NickyFot/EmoCommonSense.git

VLLMs는 상식 추론을 통해 감정 이해에 더 나은 맥락을 제공합니다. | 최신 연구 논문 | HyperAI초신경