Command Palette
Search for a command to run...
멀티모달 컴퓨팅이 본격적으로 도약하기 시작할 때: 단 9바이트 용량의 MiniCPM-o-4.5는 실시간 이미지 이해 및 텍스트 생성을 지원하며, vLLM Omni는 텍스트 및 멀티모달 모델 모두에 대해 높은 처리량 배포와 서비스 지향 아키텍처를 동시에 지원합니다.

다중 모달 대규모 모델이 "사용 가능한" 단계에서 "사용하기 쉬운" 단계로 전환되는 이 중요한 시점에서, 매개변수 크기, 추론 비용 및 배포 장벽은 모델 기능만큼이나 중요해지고 있습니다. OpenBMB의 최신 릴리스인 MiniCPM-o-4.5는 이러한 점을 고려했습니다.Omni의 풀모달 기능은 단 90억 개의 파라미터만을 사용하여 구축되었으며, 경량성과 고성능 사이에서 더 나은 솔루션을 찾아냈습니다.
MiniCPM-o-4.5는 텍스트와 이미지 같은 멀티모달 입력으로부터 모델링과 출력을 동시에 생성하는 통합 아키텍처를 채택하여, 교차 모달 정렬 기능과 추론 효율성의 시너지 효과를 극대화합니다. 9바이트의 소형 모델 크기로 일반 소비자용 GPU에서도 추론이 가능하므로, 대규모 클로즈드 소스 모델에 비해 메모리 사용량과 응답 시간 측면에서 엔지니어링 친화적입니다.
현재,HyperAI의 공식 웹사이트가 오픈했습니다."MiniCPM-o-4_5: Wallfacer Intelligence 오픈 소스 전이중 풀모달 모델"와서 드셔보세요~
온라인 사용:https://go.hyper.ai/iOGzO
2월 24일부터 2월 27일까지 hyper.ai 공식 웹사이트의 주요 업데이트 사항을 간략하게 살펴보겠습니다.
* 고품질 공개 데이터 세트: 3개
* 고품질 튜토리얼: 14개
* 인기 백과사전 항목: 5개
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. THINGS-EEG EEG 데이터셋
THINGS-EEG는 미국 국립보건원(NIH) 산하 국립정신건강연구소, 독일 막스 플랑크 인간인지뇌과학연구소, 기센 의과대학 등 여러 기관이 공동으로 개발한 사물 인지 연구를 위한 뇌전도(EEG) 데이터셋입니다. 이 데이터셋은 50명의 피험자가 사물 이미지를 볼 때의 뇌전도 활동을 기록하며, 사물 처리의 시간적 역동성과 인지적 표상을 분석하는 데 사용됩니다.
직접 사용:https://go.hyper.ai/kqejl
2. THINGS-MEG 자기뇌파 데이터 세트
THINGS-MEG는 미국 국립보건원 산하 국립정신건강연구소, 독일 막스 플랑크 인간인지뇌과학연구소, 독일 기센 의과대학 등 여러 기관이 공동으로 개발한 사물 인지 연구를 위한 뇌 자기뇌파(MEG) 데이터셋입니다. 이 데이터셋은 피험자가 사물 이미지를 볼 때 밀리초 단위의 뇌 전자기 활동을 기록하며, 사물 처리의 시간적 역동성을 분석하는 데 사용됩니다.
직접 사용:https://go.hyper.ai/eBKWI
3. THINGS-fMRI 기능적 자기공명영상 데이터셋
THINGS-fMRI는 미국 국립보건원 산하 국립정신건강연구소, 독일 막스 플랑크 인간인지뇌과학연구소, 독일 기센 의과대학 등이 공동으로 발표한 객체 인지 연구를 위한 고밀도 기능적 자기공명영상(fMRI) 데이터셋입니다. 이 데이터셋은 현실 세계의 객체에 대한 인간 두뇌의 시각적 및 의미적 표상을 체계적으로 규명하는 것을 목표로 합니다.
직접 사용:https://go.hyper.ai/CRbiA
선택된 공개 튜토리얼
이번 주에는 3가지 유형의 고품질 공개 튜토리얼을 모아봤습니다.
* OCR 튜토리얼: 4
* 멀티모달 튜토리얼: 6개
* 대규모 언어 모델 튜토리얼: 4부작
OCR 튜토리얼
1. GLM-OCR 경량 멀티모달 OCR 인식 시스템
GLM-OCR은 Zhipu AI에서 2026년 2월에 오픈소스로 공개한 경량 멀티모달 OCR 모델(0.9B)로, 복잡한 문서 환경에서 고정밀 텍스트 인식 및 구조적 구문 분석에 특화되어 있습니다. "작은 크기, 높은 정확도, 간편한 배포"가 핵심 장점입니다. GLM-V 인코더-디코더 멀티모달 아키텍처를 기반으로 자체 개발한 CogViT 비주얼 인코더와 RLHF 최적화 기법을 통합했습니다. OmniDocBench V1.5 벤치마크에서 94.62점을 기록하며 Gemini-3-Pro에 근접한 성능을 달성하여 최첨단(SOTA) 벤치마크를 석권했습니다. 사무 문서 구문 분석, 교육 및 과학 분야의 공식 인식, 정부 및 금융 문서 검증, 코드 조각 추출 등 다양한 시나리오에 적합합니다.
온라인으로 실행:https://go.hyper.ai/kgb3n

2. PaddleOCR-VL-1.5: vLLM 기반 로컬 OCR
PaddleOCR-VL-1.5는 PaddlePaddle 팀에서 출시한 PaddleOCR 시리즈의 멀티모달 OCR 모델 중 하나입니다. 이 모델은 복잡한 문서 시나리오(송장, 계약서, 서류, 스캔 문서 등)에서 더욱 강력한 텍스트 인식 및 레이아웃 이해 기능을 제공합니다. 이 튜토리얼에서는 vLLM의 OpenAI 호환 인터페이스를 사용하여 이 모델에 연결하고, 이미지 업로드부터 인식 결과 반환까지의 전체 과정을 구현합니다. 0.9B개의 파라미터를 가진 이 모델은 OmniDocBench v1.5에서 94.5%의 차세대 정확도를 달성합니다.
온라인으로 실행:https://go.hyper.ai/cea6x

3.LightOnOCR-2-1B 경량 고성능 엔드투엔드 OCR 모델
LightOnOCR-2-1B는 LightOn AI의 최신 엔드투엔드 시각 언어 모델입니다. LightOnOCR 시리즈의 플래그십 버전인 이 모델은 문서 이해와 텍스트 생성을 컴팩트한 아키텍처에 통합하고, 10억 개의 파라미터를 지원하며, 일반 소비자용 GPU에서도 실행 가능합니다. 비전-언어 트랜스포머(Vision-Language Transformer) 아키텍처와 RLVR 학습 기술을 적용하여 매우 높은 인식 정확도와 추론 속도를 자랑합니다. 특히 복잡한 문서, 손글씨, LaTeX 수식 처리가 필요한 애플리케이션에 최적화되어 있습니다.
온라인으로 실행:https://go.hyper.ai/cLSj5

4. DeepSeek-OCR 2 시각적 인과 흐름
DeepSeek-OCR 2는 DeepSeek 팀에서 출시한 2세대 OCR 모델입니다. DeepEncoder V2 아키텍처를 도입하여 고정 스캔 방식에서 의미론적 추론 방식으로 패러다임을 전환했습니다. 이 모델은 인과 스트림 쿼리와 듀얼 스트림 어텐션 메커니즘을 활용하여 시각적 토큰을 동적으로 재배열함으로써 복잡한 문서의 자연스러운 읽기 논리를 더욱 정확하게 재현합니다. OmniDocBench v1.5 벤치마크에서 91.09%라는 종합 점수를 달성하여 이전 모델 대비 크게 향상되었으며, OCR 인식 결과의 중복률도 현저히 감소시켜 향후 완전 모달 인코더 구축을 위한 새로운 방향을 제시합니다.
온라인으로 실행:https://go.hyper.ai/iOGzO

멀티모달 튜토리얼
1. MiniCPM-o-4.5: Wallfacer Intelligence의 오픈 소스 전이중, 풀모달 모델
MiniCPM-o-4.5는 Facewall Intelligence와 칭화대학교 자연어처리연구소가 2026년 2월에 오픈소스로 공개한 90억 개 파라미터를 지원하는 풀모달 플래그십 모델입니다. siglip2, whisper, cosyvoice2, qwen3-8b 등의 칩셋을 활용한 엔드투엔드 아키텍처를 채택했습니다. 업계 최초로 "실시간 자유 대화"를 지원하는 모델로서, 전이중 상호작용을 구현하여 사용자가 보고, 듣고, 말할 수 있도록 함으로써 기존의 순차적인 "무전기" 방식에서 벗어났습니다. 이 모델은 뛰어난 시각 이해 능력, 인간형 음성 생성 능력, 음성 복제 능력을 자랑합니다. 또한 능동적인 상호작용과 실시간 스트리밍 미디어 처리를 지원하며 엣지 디바이스에서도 실행 가능합니다. ascend, Hygon 등 다양한 국내 생산 칩과 호환되며, llama.cpp, vLLM 등의 프레임워크를 사용하여 효율적으로 배포할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/iOGzO
2.vLLM-Omni를 사용하여 Qwen-Image-Edit 배포하기
Qwen-Image-Edit는 알리바바에서 출시한 다기능 이미지 편집 프로그램입니다. 이 프로그램은 의미 편집과 시각 편집 두 가지 기능을 모두 갖추고 있어, 요소 추가, 삭제, 수정과 같은 저수준 시각 편집은 물론, IP 생성, 객체 회전, 스타일 적용과 같은 고수준 시각 의미 편집도 가능합니다. 중국어와 영어 이중 언어 텍스트를 정밀하게 편집할 수 있으며, 원본 글꼴, 크기, 스타일을 유지하면서 이미지 내 텍스트를 수정할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/4w6XA
3. Step3-VL-10B: 멀티모달 시각적 이해 및 그래픽 대화
Step3-VL-10B는 StepFun 팀에서 공개한 오픈 소스 시각 언어 기반 모델로, 특히 멀티모달 이해 및 복잡한 추론 작업에 최적화되어 있습니다. 이 모델은 효율성, 추론 능력, 시각적 이해 품질 간의 균형을 재정립하는 것을 목표로 하며, 제한된 파라미터 크기를 가진 멀티모달 모델에 적합합니다. 작은 파라미터 크기에도 불구하고, 이 모델은 시각 인식, 복잡한 추론, 인간 지시 정렬 분야에서 뛰어난 성능을 보여줍니다. 여러 벤치마크에서 유사한 파라미터 크기의 모델들을 일관되게 능가하며, 특정 작업에서는 파라미터 수가 10~20배 더 많은 모델과도 경쟁할 만한 성능을 발휘합니다.
온라인으로 실행:https://go.hyper.ai/RqTTW

4. vLLM-Omni를 사용하여 Qwen-Image-2512를 배포합니다.
Qwen-Image-2512는 Qwen-Image 시리즈의 기본 텍스트-이미지 변환 모델로, 고품질 이미지 생성 및 복잡한 멀티모달 콘텐츠 표현을 위해 설계되었습니다. 생성된 이미지의 전반적인 사실감과 사용성을 향상시키는 데 중점을 두었습니다. 인물 사진 생성 기능은 얼굴 구조, 피부 질감, 조명 관계 등을 실제 사진과 더욱 유사하게 표현하여 자연스러움을 크게 향상시켰습니다. 자연 장면에서는 지형 질감, 식물 세부 묘사, 동물의 털과 같은 고주파 정보까지 더욱 세밀하게 생성할 수 있습니다. 텍스트 생성 및 타이포그래피 기능 또한 개선되어 가독성 높은 텍스트와 복잡한 글꼴 스타일을 더욱 안정적으로 표현할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/JMmhs
5. TurboDiffusion: 이미지 및 텍스트 기반 비디오 생성 시스템
TurboDiffusion은 2025년 12월 칭화대학교 연구팀이 개발한 고효율 비디오 확산 생성 시스템입니다. 고차 증류를 위한 Wan2.1 아키텍처를 기반으로 하는 이 시스템은 대규모 비디오 모델에서 발생하는 느린 추론 속도와 높은 연산 자원 소모 문제를 해결하여 최소한의 단계로 고품질 비디오를 생성하는 것을 목표로 합니다.
온라인으로 실행:https://go.hyper.ai/VvyVZ
6. 페르소나플렉스-7B-v1: 실시간 대화 및 캐릭터 맞춤형 음성 인터페이스
PersonaPlex-7B-v1은 NVIDIA에서 출시한 70억 개 파라미터를 가진 멀티모달 개인 맞춤형 대화 모델입니다. 실시간 음성/텍스트 상호작용, 장기적인 페르소나 일관성 시뮬레이션, 멀티모달 인식 작업을 위해 설계되었으며, 밀리초 수준의 응답 속도로 몰입형 역할극 및 멀티모달 상호작용 시연 시스템을 제공하는 것을 목표로 합니다.
온라인으로 실행:https://go.hyper.ai/ndoj0

대규모 언어 모델 튜토리얼
1.llama.cpp+Open WebUI deploy Qwen3-VL-8B-Instruct-GGUF
Qwen3-VL-8B-Instruct-GGUF는 다양한 정확한 언어 모델 변형과 전용 MMPROJ 비주얼 인코더를 제공합니다. 이러한 모델은 llama.cpp 및 Ollama와 같은 도구와 호환되며 CPU, NVIDIA GPU, Apple Silicon, Intel GPU를 포함한 다양한 하드웨어에 적합합니다. Qwen3-VL-8B-Instruct-GGUF는 GGUF 형식에서 언어 구성 요소와 비주얼 구성 요소를 명확하게 구분합니다. 이를 통해 개발자는 하드웨어에 맞는 양자화 수준을 선택할 수 있어 리소스가 제한된 CPU 환경에서도 적절한 응답 시간을 달성하고 GPU가 장착된 시스템에서는 성능을 극대화할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/EKryC
2. 야코비 강제법: 빠르고 정확한 인과적 병렬 디코딩 기법
Jacobi Forcing은 Hao AI Labs에서 개발한 새로운 학습 기법으로, 대규모 언어 모델(LLM)을 네이티브 인과 병렬 디코더로 변환합니다. 이 기법은 모델이 자체 Jacobi 디코딩 궤적을 따라 노이즈가 포함된 미래 블록을 처리하도록 학습함으로써, 인과적 자기회귀(AR) 백본 구조의 무결성을 유지하면서 AR 모델에서 확산 모델로의 전환 문제를 해결합니다.
온라인으로 실행:https://go.hyper.ai/fIad4
3.GLM-4.7-Flash의 vLLM+Open WebUI 배포
GLM-4.7-Flash는 고성능과 높은 처리량의 균형을 맞춘 경량 멀티모달 추론 모델로, Chained Thinking(CoT), 도구 호출 및 에이전트 기능을 기본적으로 지원합니다. GLM-4.7-Flash는 Hybrid Expert(MoE) 아키텍처를 채택하여 희소 활성화 메커니즘을 활용함으로써 대규모 모델의 표현력을 유지하면서 각 추론의 계산 비용을 크게 줄입니다.
온라인으로 실행:https://go.hyper.ai/a2IN3
4. LFM2.5-1.2B의 vLLM+Open WebUI 배포 - 사고방식
LFM2.5-1.2B-Thinking은 엣지 환경에 최적화된 하이브리드 아키텍처 모델입니다. LFM2.5 시리즈의 논리 추론 최적화 버전으로, 긴 시퀀스 처리와 효율적인 추론 기능을 컴팩트한 아키텍처 내에 통합했습니다. 이 모델은 12억 개의 파라미터를 처리할 수 있으며, 일반 소비자용 GPU는 물론 엣지 디바이스에서도 원활하게 실행됩니다. 혁신적인 하이브리드 아키텍처(선형 동적 시스템 + 어텐션)를 통해 매우 높은 메모리 효율성과 처리량을 제공하며, 지능을 희생하지 않고 실시간 온디바이스 추론이 필요한 시나리오에 최적화되어 있습니다.
온라인으로 실행:https://go.hyper.a아이/1XTsV
커뮤니티 기사 해석
1. 유럽의 한 연구팀이 20초 만에 15일간의 해양 예측을 제공할 수 있는 고해상도 지역 해양 예측 모델인 SeaCast를 제안했습니다.
불규칙적인 육지-해양 분포, 복잡한 측면 경계 조건, 그리고 수직적으로 층화된 변수들에 대한 상세한 특성화 필요성 때문에 기존의 전지구적 해양 AI 모델은 지역적 과제에 직접 적용하기 어렵습니다. 이러한 문제를 해결하기 위해 핀란드 헬싱키 대학교, 지중해 기후변화 연구센터, 이탈리아 살렌토 대학교의 공동 연구팀은 지역 해양 예측에 특화된 그래프 신경망 모델인 SeaCast를 개발했습니다. SeaCast는 단일 GPU에서 1/24° 격자 내 18개 수직층에 걸쳐 15일 예측을 단 20초 만에 완료할 수 있습니다.
전체 보고서 보기:https://go.hyper.ai/kRXnE
2. 코넬 대학교는 고전도성 리튬 이온 전해질의 화학적 메커니즘을 해독하는 혁신적인 AI 프레임워크를 제안했으며, %에 대해 80% 이상의 예측 성공률을 달성했습니다.
염-용매 화학은 대부분의 리튬 이온 배터리 시스템에서 전해질의 거동을 좌우하지만, 그 합리적인 설계는 무수히 많은 조합과 비선형적인 구조-성능 상호작용을 포함하는 방대한 화학적 공간으로 인해 제약을 받습니다. 이러한 문제는 실험 데이터의 부족과 불균일한 분포로 더욱 악화되어 모델의 일반화 능력을 저해합니다. 코넬 대학교 연구팀은 염-용매 화학을 모델링하고 해석하기 위한 견고하고 해석 가능하며 데이터 효율적인 프레임워크인 SCAN을 개발했습니다. 이 프레임워크는 긴 꼬리 분포를 가진 데이터를 효과적으로 처리하고 모든 염-용매 조성 범위를 포괄합니다.
전체 보고서 보기:https://go.hyper.ai/OrHIt
3. 미시간 대학교 등이 제안한 새로운 배터리 수명 예측 방법은 검증 주기를 40배 단축합니다. "발견 학습"은 98%의 평가 시간을 절약합니다.
차세대 배터리의 연구 및 대규모 적용에 있어 정확하고 효율적인 배터리 수명 예측은 매우 중요하며, 이는 배터리의 신뢰성, 안전성 및 총 수명 주기 비용을 직접적으로 좌우합니다. 최근 미시간 대학교를 비롯한 연구 기관의 전문가들은 능동 학습, 물리적 제약 학습, 제로샷 학습을 유기적으로 통합하여 인간과 유사한 추론 방식의 폐쇄 루프 학습 프레임워크를 구축하는 혁신적인 과학적 머신러닝 방법인 "디스커버리 러닝(DL)"을 제안했습니다. 보수적인 가정 하에, 산업용 배터리 수명 검증 프로세스와 비교했을 때, 디스커버리 러닝은 평가 시간 981 TP3T, 에너지 소비량 951 TP3T를 절감하여 검증 주기를 약 1,333일에서 33일로 단축할 수 있습니다.
전체 보고서 보기:https://go.hyper.ai/28W2g
4. 논문 요약 | 2025년까지 과학 분야를 위한 100가지 이상의 주요 AI 성과: 기술 혁신에 대한 간략한 개요
지난 한 해 동안 인공지능(AI)과 과학 연구의 관계는 심오하고도 조용한 변화를 겪었습니다. 2025년까지 과학을 위한 AI는 단순히 산발적인 기술적 응용에 그치지 않고, 과학 연구와 혁신을 위한 명확하고 체계적이며 재사용 가능한 경로로 발전할 것입니다. AI는 더 이상 단순한 도구가 아니라 연구 패러다임의 일부가 될 것입니다. HyperAI는 의료, 재료 화학, 기상 연구, 천문학 등 다양한 분야의 논문을 모아, 다양한 배경을 가진 독자들이 쉽고 빠르게 검색하고 검토할 수 있도록 했습니다.
전체 보고서 보기:https://go.hyper.ai/FLJGD
인기 백과사전 기사
1. 역방향 정렬과 RRF의 결합
2. 콜모고로프-아놀드 표현 정리
3. 대규모 다중 작업 언어 이해(MMLU)
4. 블랙박스 최적화 도구
5. 클래스 조건부 확률
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!








