HyperAIHyperAI

Command Palette

Search for a command to run...

Long-VITA: 수백만 개의 토큰을 활용한 멀티모달 이해 데모

날짜

5달 전

조직

Xiamen University
Nanjing University

논문 URL

2502.05177

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다

Long-VITA는 2025년 2월 텐센트 유투 연구소, 난징대학교, 샤먼대학교가 공동으로 발표한 장문맥 멀티모달 대규모 모델 연구 성과입니다. 이 모델은 짧은 문맥에서도 뛰어난 정확도를 유지하면서 문맥 길이를 100만 토큰까지 확장하여 텍스트와 이미지 등 멀티모달 입력을 효율적으로 처리할 수 있습니다. 관련 논문 제목은 "..."입니다.Long-VITA: 최고 수준의 단기 컨텍스트 정확도를 유지하면서 대규모 멀티모달 모델을 100만 토큰까지 확장".

이 튜토리얼에서는 RTX 4090 그래픽 카드 하나를 사용하고 Long-VITA-16K_HF 모델을 배포합니다.

2. 효과 예시

텍스트 대화 

 이미지 이해 

 비디오 이해 

3. 작업 단계

1. 컨테이너를 시작한 후 API 주소를 클릭하여 Gradio 대화형 인터페이스에 들어갑니다.

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

지침

  • 긴 컨텍스트 입력의 경우 충분한 비디오 메모리를 확보해야 하며, 매우 큰 텍스트는 일괄적으로 로드하는 것이 좋습니다.
  • 추론 지연 시간을 줄이기 위해 이미지 입력 시 한 변의 길이는 2048픽셀 이하인 것이 좋습니다.
  • 추론에 실패하면 입력 형식을 확인하거나 입력 길이를 줄여서 다시 시도하십시오.

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{shen2025longvitascalinglargemultimodal,
      title={Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy}, 
      author={Yunhang Shen and Chaoyou Fu and Shaoqi Dong and Xiong Wang and Yi-Fan Zhang and Peixian Chen and Mengdan Zhang and Haoyu Cao and Ke Li and Xiawu Zheng and Yan Zhang and Yiyi Zhou and Ran He and Caifeng Shan and Rongrong Ji and Xing Sun},
      year={2025},
      eprint={2502.05177},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.05177}, 
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp