Command Palette

Search for a command to run...

7일 전

HumanSense: 다중모달 인지에서 출발하여 추론을 통한 공감적이고 맥락 인지형 응답으로

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

HumanSense: 다중모달 인지에서 출발하여 추론을 통한 공감적이고 맥락 인지형 응답으로

초록

다중모달 대규모 언어모델(Multimodal Large Language Models, MLLMs)은 진정한 인간과 같은 상호작용을 달성할 잠재력을 지니고 있으나, 복잡한 인간의 의도를 이해하고 공감적이고 맥락 인식형 응답을 제공하는 인간 중심 시나리오에 대한 세밀한 평가 프레임워크의 부재로 인해 발전이 제한되고 있다. 본 연구에서는 다중모달 맥락의 심층적 이해와 합리적인 피드백 생성에 초점을 맞추어, MLLMs의 인간 중심 인지 및 상호작용 능력을 종합적으로 평가할 수 있도록 설계된 HumanSense라는 종합적 벤치마크를 제안한다. 평가 결과, 최첨단 MLLMs도 고도의 상호작용 중심 과제에서 여전히 개선할 여지가 크다는 것이 확인되었다. 시각 정보 외에 음성 및 텍스트 정보를 추가함으로써 성능 향상이 크게 나타났으며, 옴니모달(omni-modal) 모델이 이와 같은 과제에서 우수한 성능을 보였다. 이는 적절한 피드백이 대화 상대의 필요와 감정을 맥락적으로 분석하는 데 기반한다는 관찰에 근거하며, 이에 따라 추론 능력이 이를 해제하는 핵심 요소임을 제안한다. 이를 바탕으로 다단계, 모달리티 점진적 강화학습 방식을 설계하여 HumanSense-Omni-Reasoning을 개발하였으며, 이는 고차원적 이해 및 상호작용 과제에서 성능을 크게 향상시켰다. 또한, 성공적인 추론 과정이 일관된 사고 패턴을 보인다는 점을 관찰하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
HumanSense: 다중모달 인지에서 출발하여 추론을 통한 공감적이고 맥락 인지형 응답으로 | 연구 논문 | HyperAI초신경