Back to Headlines

클립태거-12b, 실-world 영상 데이터로 훈련된 새 영상 태깅 모델이 클로드4 및 GPT-4.1 압도

한 달 전

그래스와 인퍼런스넷이 공동 개발한 영상 태깅 모델 '클립태거-12b'가 출시됐다. 이 모델은 그래스가 수집한 세계 최대 규모의 실생활 영상 데이터셋(10억 건 이상)을 기반으로 훈련됐으며, 인퍼런스넷의 분산 컴퓨팅 인프라에서 운영된다. 성능 측정 결과, 클립태거-12b는 애니메이션 4 및 GPT-4.1을 넘어선 정확도를 보이며, ROUGE와 BLEU 지표에서 우수한 성능을 기록했다. 비용 측면에서는 최대 17배 저렴하다. 이 모델은 자율주행차, 창고 로봇 등 다양한 분야에서 행동, 물체, 로고 등을 정밀하게 인식하는 데 활용 가능하며, API를 통해 즉시 접근할 수 있다. 모델 가중치와 자료는 허깅페이스에 공개됐고, 연구자들은 인퍼런스넷의 기부 프로그램을 통해 최대 1만 달러 상당의 컴퓨팅 크레딧을 신청할 수 있다. 그래스는 사용자가 불필요한 인터넷 대역폭을 기부해 전 세계 데이터 수집 네트워크를 운영하는 앱이며, 인퍼런스넷은 중앙 집중형 클라우드에 의존하지 않고 대규모 AI 모델을 실행할 수 있도록 지원하는 분산 컴퓨팅 네트워크다. 두 기업의 협업은 기술력이 뛰어난 소규모 팀도 대규모 AI 랩에만 가능했던 고성능 모델을 구축하고 배포할 수 있음을 보여주며, AI 학습에 필요한 실생활 데이터 접근성을 높인다는 점에서 의미가 크다.

Related Links