HyperAIHyperAI

Command Palette

Search for a command to run...

클링-아바타: 계단식 장시간 아바타 애니메이션 합성에 대한 다중모달 지시의 기반화

초록

최근 음성 기반 아바타 영상 생성 기술의 발전은 음성-시각적 사실감을 크게 향상시켰다. 그러나 기존 방법들은 지시 문장 조건을 단순히 음성 또는 시각적 신호에 의해 유도되는 저수준의 추적 작업으로만 다루며, 지시 문장이 전달하는 의사소통 목적을 모델링하지 못하는 한계를 지닌다. 이러한 한계는 생성된 영상의 서사적 일관성과 캐릭터의 표현력을 저해한다. 이 격차를 해소하기 위해, 다중모달 지시어 이해와 사실감 있는 초상 영상 생성을 통합하는 새로운 계단형 프레임워크인 Kling-Avatar를 제안한다. 본 연구는 이중 단계 파이프라인을 채택한다. 첫 번째 단계에서는 다양한 지시 신호를 기반으로 블루프린트 영상을 생성하는 다중모달 대규모 언어 모델(Multimodal Large Language Model, MLLM) 기반의 디렉터를 설계하여, 캐릭터의 동작과 감정과 같은 고수준 의미를 제어한다. 두 번째 단계에서는 블루프린트 키프레임을 기반으로, 첫 프레임과 마지막 프레임 전략을 활용하여 병렬로 여러 하위 클립을 생성한다. 이전체-지역적 프레임워크는 세밀한 세부 정보를 유지하면서도, 다중모달 지시어의 고수준 의도를 정확히 반영한다. 또한 병렬 구조는 장시간 영상의 빠르고 안정적인 생성을 가능하게 하여, 디지털 인물의 라이브스트리밍이나 블로그 콘텐츠 제작과 같은 실용적 응용 분야에 적합하다. 본 방법의 종합적 평가를 위해, 다양한 지시 문장과 도전적인 시나리오를 포괄하는 375개의 정밀하게 선별된 샘플로 구성된 벤치마크를 구축하였다. 광범위한 실험 결과에 따르면, Kling-Avatar는 최대 1080p 해상도 및 48fps에서 생생하고 매끄럽고 장시간 지속되는 영상을 생성할 수 있으며, 입술 동기화 정확도, 감정 표현력과 동적 표현력, 지시어 제어 가능성, 정체성 보존 능력, 그리고 다중 도메인 일반화 성능에서 뛰어난 성능을 달성하였다. 이러한 결과는 Kling-Avatar가 의미 기반의 고해상도 음성 기반 아바타 합성 분야에서 새로운 기준이 될 수 있음을 입증한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
클링-아바타: 계단식 장시간 아바타 애니메이션 합성에 대한 다중모달 지시의 기반화 | 문서 | HyperAI초신경