온라인 튜토리얼 | GPT-4V를 물리치시겠습니까? 초강력 오픈소스 멀티모달 대형 모델 LLaVA-OneVision이 공식 출시되었습니다!

대규모 언어 모델(LLM)과 대규모 멀티모달 모델(LMM)은 인공지능 분야의 두 가지 핵심 개발 방향입니다. LLM이 텍스트 데이터를 처리하고 생성하는 데 중점을 두는 반면, LMM은 한 걸음 더 나아가 텍스트, 이미지, 비디오를 포함한 여러 데이터 유형을 통합하고 이해하는 것을 목표로 합니다. 오늘날 LLM은 비교적 성숙되었으며 ChatGPT와 다른 알고리즘은 이미 텍스트 이해에 능숙합니다. 사람들은 다중 모드 데이터에 대한 이해에 관심을 돌리기 시작했으며, 모델이 "이미지를 읽고 비디오를 볼 수 있도록" 하고 있습니다.
최근 ByteDance, 난양이공대학, 홍콩중문대학, 홍콩과학기술대학의 연구진이 공동으로 LLaVA-OneVision 다중 모드 대형 모델을 오픈 소스로 공개했습니다. 이 모델은 단일 이미지, 다중 이미지, 비디오 작업에서 뛰어난 성능을 보였습니다. 다중 모드 대형 모델을 위해 설계된 평가 프레임워크인 LMMs-Eval은 다음 그림에서 볼 수 있듯이 LLaVA-OneVision-72B가 대부분의 벤치마크에서 GPT-4V 및 GPT-4o보다 우수한 성능을 보인다는 것을 보여줍니다.


HyperAI Hyperneuron 튜토리얼이 출시되었습니다."LLaVA-OneVision Multimodal All-Round Vision 모델 데모"사용자는 간단히 복제하고 클릭 한 번으로 시작하여 다양한 시각적 작업을 쉽게 처리할 수 있습니다. 정적 이미지 분석이든 동적 비디오 구문 분석이든, 고품질의 결과물을 제공할 수 있습니다.
튜토리얼 주소:
데모 실행
1. hyper.ai에 로그인하고 튜토리얼 페이지에서 LLaVA-OneVision Multimodal Universal Vision Model Demo를 선택한 다음, 이 튜토리얼을 온라인으로 실행을 클릭합니다.


2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. 오른쪽 하단에 있는 "다음: 해시레이트 선택"을 클릭합니다.

4. 페이지가 이동한 후 "NVIDIA RTX A6000"과 "PyTorch" 이미지를 선택하고 "다음: 검토"를 클릭합니다.신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_QZy7

5. 확인 후 "계속"을 클릭하고 리소스가 할당될 때까지 기다리세요. 첫 번째 복제 과정은 약 3분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다.API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.모델이 너무 크기 때문에 컨테이너가 실행 중이라고 표시된 후 API 주소를 열기 전에 약 1분 정도 기다려야 합니다. 그렇지 않으면 BadGateway가 표시됩니다.



효과 시연
1. 데모 인터페이스를 연 후, 먼저 그림을 이해하는 능력을 테스트해 보겠습니다. 빨간색 프레임 안에 다양한 감정을 담은 사진 3장을 업로드하고, "어떤 이미지가 두려움이라는 감정을 표현하고 있나요?"라는 질문을 입력하세요. 이 그림은 우리의 질문에 정확하게 답하고 그림에 대한 설명을 제공하는 것을 볼 수 있습니다(머리에 손을 얹고 충격이나 두려움을 표현한 첫 번째 이미지는 두려움이라는 감정을 표현하고 있습니다).



2. 또한 뛰어난 영상 이해 능력을 갖추고 있습니다. 올림픽 달리기 경기의 하이라이트 영상을 모아 업로드하고 "이 영상은 무슨 내용인가요?"라고 물어보세요. 경기의 이벤트에 정확하게 대응하고, 선수들의 피부색, 감정 표현, 경기장 주변의 스폰서 로고 등 영상 장면과 세부 사항을 묘사할 수 있다는 것을 확인할 수 있습니다.

답변 번역:
이 영상은 주로 100m 달리기를 중심으로 한 육상 경기 영상인 것으로 보인다. 이 그림은 출발대에서 경쟁을 준비하는 선수들을 보여주고 있으며, 한 선수는 노란색과 녹색 복장을 하고 있는데, 이는 그가 자메이카를 대표하는 듯함을 암시하는데, 이는 이 두 가지 색상이 자메이카 국기의 색상이기 때문입니다. 이 영상은 선수들이 출발을 준비하는 모습과 출발대에서 밀어내는 모습, 그리고 이어서 트랙을 따라 질주하는 모습을 포착했습니다. 선수들은 자신의 국가대표팀이나 스폰서를 나타내는 유니폼을 입고 있으며, TOYOTA, TDK 등 다양한 스폰서의 로고가 경기장 곳곳에 보입니다. 영상에는 선수들의 얼굴을 클로즈업으로 담아내어 그들의 집중력과 결의를 보여준다. 마지막 장면에서는 선수들이 달리는 모습이 나오는데, 한 선수가 다른 선수들을 이끌고 있어 경쟁적인 경주가 진행 중임을 암시합니다.
우리는 "안정 확산 튜토리얼 교환 그룹"을 만들었습니다. 다양한 기술적인 문제를 논의하고 신청 결과를 공유하기 위해 그룹에 가입해 주세요~
아래의 QR 코드를 스캔하여 WeChat에 HyperaiXingXing을 추가하세요(WeChat ID: Hyperai01). 그리고 "SD 튜토리얼 교환 그룹"을 메모하여 그룹 채팅에 참여하세요.
