Command Palette

Search for a command to run...

바이두가 움직입니다! 바이두의 OCR 모델인 PaddleOCR-VL은 파이프라인과 엔드투엔드 방식의 한계를 뛰어넘습니다. 얼굴 감정 인식 데이터 세트는 AI가 얼굴 표정을 이해할 수 있도록 지원합니다.

Featured Image

현대 문서 콘텐츠의 복잡성은 파싱 기술에 더 큰 과제를 안겨줍니다. 문서에는 긴 텍스트, 복잡한 차트, 전문적인 수식, 여러 언어가 포함되어 있으며, 레이아웃이 불규칙할 수도 있습니다. 따라서 효율적이고 정확한 문서 파싱은 필수적인 핵심 기술이 되었습니다.

문서 구문 분석 분야의 현재 연구는 주로 두 가지 기술적 경로를 따릅니다.한 가지 접근 방식은 모듈식 전문가 모델을 기반으로 하는 파이프라인 방법을 사용하는 것입니다.이러한 방법은 특정 작업에서는 안정적으로 작동하지만 단점이 점점 더 분명해지고 있습니다. 시스템 아키텍처가 복잡하고, 오류가 처리 단계에 따라 누적되며, 매우 복잡한 문서를 처리할 때 성능에 본질적으로 상한이 있습니다.저것두 번째는 다중 모드 대규모 모델을 기반으로 한 종단 간 접근 방식입니다.워크플로우를 단순화하고 전역 최적화를 달성하도록 설계되었지만, 실제 적용에서는 텍스트 순서가 어긋나거나 긴 문서나 복잡한 레이아웃을 처리할 때 "환상적인" 콘텐츠가 생성되는 등 종종 문제에 직면합니다. 더욱이, 긴 시퀀스 출력의 엄청난 계산 비용은 실제 시나리오에서의 구현 가능성을 제한합니다.

이러한 실제 과제를 기반으로바이두는 시각 언어 모델을 기반으로 한 고성능, 리소스 효율적인 문서 구문 분석 모델인 PaddleOCR-VL을 출시했습니다.이 모델의 핵심 구성 요소는 NaViT 스타일의 동적 해상도 시각 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합하여 정확한 요소 인식을 지원하는 컴팩트하고 강력한 시각 언어 모델 PaddleOCR-VL-0.9B입니다. 이 혁신적인 모델은 109개 언어를 효율적으로 지원하고 텍스트, 표, 수식, 차트와 같은 복잡한 요소 인식에 탁월한 성능을 발휘하는 동시에 리소스 사용량을 최소화합니다.

종합적인 평가를 통해PaddleOCR-VL은 페이지 수준 문서 구문 분석과 요소 수준 인식 작업 모두에서 최첨단(SOTA) 성능을 달성했습니다.이 모델은 최고의 시각 언어 모델과 비교했을 때 강력한 경쟁력을 보여주므로 실제 시나리오에서 배포하고 적용하는 데 더 적합합니다.

HyperAI 웹사이트에서 이제 "PaddleOCR-VL: 다중 모드 문서 파싱" 기능을 제공하니, 한번 사용해 보세요!

온라인 사용:https://go.hyper.ai/3OjbB

11월 17일부터 11월 21일까지 hyper.ai 공식 웹사이트 업데이트에 대한 간략한 개요는 다음과 같습니다.

* 고품질 공개 데이터 세트: 6개

* 고품질 튜토리얼 선택: 3개

* 이번 주 추천 논문 : 5

* 커뮤니티 기사 해석 : 5개 기사

* 인기 백과사전 항목: 5개

12월 마감일이 있는 주요 컨퍼런스: 2

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. HumanSense 벤치마크 데이터 세트

휴먼센스 벤치마크는 시안 교통대학교와 앤트 그룹이 공동으로 개발한 인간 지각 평가 벤치마크 데이터셋입니다. 시각, 청각, 텍스트 등 다중 모드 정보를 융합하여 모델의 실제 상호작용 능력을 종합적으로 측정하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/9drzT

2. EditReward-Bench 이미지 편집 평가 데이터 세트

EditReward-Bench는 중국과학기술대학, 중국과학원 자동화연구소, 그리고 베이징인공지능연구원이 공동으로 발표한 이미지 편집 보상 모델에 대한 체계적인 평가 벤치마크입니다. 이 벤치마크는 명령 준수, 일관성 유지, 그리고 전반적인 품질이라는 세 가지 핵심 측면에서 보상 모델의 판별력을 종합적으로 평가하는 것을 목표로 합니다. 이 데이터셋은 전문가가 주석을 단 3,072개의 선호도 비교 데이터 포인트를 포함하고 있으며, 일반적이고 복잡한 실제 적용 시나리오를 포괄적으로 포괄합니다.

직접 사용:https://go.hyper.ai/OEVRn

3. UNO-Bench 전체 모달 평가 벤치마크 데이터 세트

Meituan의 LongCat 팀이 출시한 UNO-Bench는 단일 모드 및 다중 모드 이해 능력을 효율적으로 평가하도록 설계된 최초의 통합 다중 모드 평가 벤치마크입니다. 이 데이터셋은 98% 교차 모드 해결 가능성을 가진 1,250개의 다중 모드 샘플과 2,480개의 단일 모드 샘플을 포함하며, 44가지 과제 유형과 5가지 모드 조합을 다룹니다. 또한, 이 데이터셋에는 6가지 유형의 문제에 대한 자동 평가를 지원하는 일반 채점 모델이 포함되어 다중 모드 과제에 대한 통합 평가 기준을 제공합니다.

직접 사용:https://go.hyper.ai/gIcIK

4. VERA 음성 추론 평가 데이터 세트

VERA는 듀크 대학교와 어도비가 공동으로 개발한 대규모 멀티태스크 음성 데이터셋입니다. 모국어 환경에서 대형 모델의 추론 능력을 평가하도록 설계되었습니다. 모든 샘플은 모국어 음성 형태로 제공되며, 오디오는 Boson Higgs Audio 2를 통해 합성되어 일관되고 명확하며 고품질의 음성 성능을 보장합니다.

직접 사용:https://go.hyper.ai/AfgW5

5. 얼굴 감정 인식 데이터 세트

얼굴 감정 인식(Facial Emotion Recognition)은 얼굴 감정 분류 작업을 위한 데이터셋으로, 다양한 감정 인식 모델을 학습하고 평가하도록 설계되었습니다. 이 데이터셋은 분노, 혐오, 두려움, 행복, 중립, 슬픔, 놀람의 일곱 가지 기본 감정을 다룹니다. 이 데이터는 공개된 FER2013 및 RAF-DB 데이터셋을 기반으로 통합되었으며, 얼굴 이미지는 HaarCascade(신뢰 수준 약 0.8)를 사용하여 필터링하고, 노이즈 제거 및 화질 향상을 거칩니다.

직접 사용:https://go.hyper.ai/z5x5N

데이터 세트 예제

6. AutoDock-GPU_Output 도킹 결과 데이터 세트

AutoDock-GPU_Output은 AutoDock-GPU를 실행하여 생성된 샘플 도킹 출력 로그(.dlg)입니다. 결합 에너지, 형태 클러스터링, 최종 리간드 태도 등의 정보가 포함되어 있습니다. 도킹 결과 분석을 위한 참조 데이터셋으로 사용되며, 결과 분석을 학습하고 환경 구성이 정상인지 확인하는 데 사용할 수 있습니다.

직접 사용:https://go.hyper.ai/zz7wV

선택된 공개 튜토리얼

1. PaddleOCR-VL: 다중 모드 문서 파싱

PaddleOCR-VL은 문서 파싱 작업을 위해 특별히 설계된 최첨단(SOTA) 리소스 효율적인 모델입니다. 핵심 구성 요소는 NaViT 스타일의 동적 해상도 비주얼 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합하여 정확한 요소 인식을 지원하는 컴팩트하고 강력한 비주얼 언어 모델(VLM)인 PaddleOCR-VL-0.9B입니다. 이 혁신적인 모델은 109개 언어를 효율적으로 지원하고 텍스트, 표, 수식, 차트와 같은 복잡한 요소 인식에 탁월한 성능을 발휘하는 동시에 리소스 사용량을 최소화합니다.

온라인으로 실행:https://go.hyper.ai/3OjbB

효과 예시

2. LongCat-Video: Meituan의 오픈소스 AI 비디오 생성 모델

LongCat-Video는 Meituan의 LongCat 팀이 개발한 136억 개의 매개변수를 갖춘 오픈소스 AI 비디오 생성 모델입니다. 텍스트-비디오, 이미지-비디오, 비디오 연속 생성 등의 작업에서 탁월한 성능을 발휘하며, 특히 고품질 장편 비디오를 효율적으로 생성하는 데 효과적입니다. 다중 보상 강화 학습 최적화(GRPO)를 통해 이 모델은 내부 및 공개 벤치마크 테스트에서 주요 오픈소스 비디오 생성 모델 및 최첨단 상용 솔루션과 동등한 성능을 입증했습니다.

온라인으로 실행:https://go.hyper.ai/3DWbb

효과 예시

3. vLLM + OpenWebUI를 사용하여 VibeThinker-1.5B 배포

VibeThinker-1.5B는 Weibo AI가 출시한 최초의 오픈소스 대규모 모델입니다. 이 모델의 강력한 기능은 단순히 매개변수를 추가하는 데 의존하는 것이 아니라, Weibo 개발자들이 제안한 SSP 학습 개념에서 비롯됩니다. 이 개념은 모델이 학습 단계에서 정확도에만 집중하는 것이 아니라 가능한 모든 해결 경로를 탐색하도록 합니다. 이후 강화 학습을 통해 전략을 효율적으로 최적화하고, 올바른 경로를 정확하게 포착하여 모델 성능을 극대화합니다.

온라인으로 실행:https://go.hyper.ai/PAcy1

효과 예시

이번 주 논문 추천

1. 칸딘스키 5.0: 이미지 및 비디오 생성을 위한 기초 모델 제품군

이 보고서는 고해상도 이미지 및 10초 비디오 합성을 위한 기본 모델군인 칸딘스키 5.0을 소개합니다. 이 프레임워크는 세 가지 핵심 모델군으로 구성됩니다. 60억 개의 매개변수를 가진 이미지 생성 모델인 칸딘스키 5.0 이미지 라이트, 20억 개의 매개변수를 가진 가볍고 효율적인 텍스트-비디오 및 이미지-비디오 생성 모델인 칸딘스키 5.0 비디오 라이트, 그리고 190억 개의 매개변수를 사용하여 탁월한 비디오 생성 품질을 구현하는 칸딘스키 5.0 비디오 프로입니다.

논문 링크:https://go.hyper.ai/cpPY4

2. P1: 강화 학습을 활용한 물리 올림피아드 마스터하기

본 논문은 강화 학습(RL)을 통해 전적으로 학습되는 오픈 소스 물리 추론 모델인 P1 시리즈를 제안합니다. 이 중 P1-235B-A22B는 2025 국제물리올림피아드(IPhO 2025)에서 금메달 수준의 성능을 달성한 최초의 오픈 소스 모델로, 2024년과 2025년에 걸쳐 13개의 국제 및 지역 물리 대회에서 12개의 금메달을 수상했습니다.

논문 링크:https://go.hyper.ai/434Df

3. VIDEOP2R: 인식에서 추론으로의 비디오 이해

본 논문은 인식과 추론을 두 개의 독립적인 과정으로 모델링하여 비디오 추론 능력을 향상시키는 새로운 절차적 비디오 강화 학습 미세 조정 프레임워크인 VideoP2R을 제안합니다. 광범위한 실험을 통해 VideoP2R은 7개의 비디오 추론 및 이해 벤치마크 중 6개에서 최첨단 성능을 달성함을 입증했습니다.

논문 링크:https://go.hyper.ai/0CChs

4. Uni-MoE-2.0-Omni: 고급 MoE, 학습 및 데이터를 활용한 언어 중심 옴니모달 대규모 모델 확장

본 논문에서는 완전 오픈소스 범용 옴니모달 대형 모델(OLM)인 Uni-MoE 2.0을 소개합니다. 이 모델은 언어 중심의 멀티모달 이해, 추론 및 생성 기능 측면에서 Uni-MoE의 기술적 발전을 크게 발전시켰습니다. 85개 벤치마크에 대한 광범위한 평가를 통해 이 모델이 현재 선도적인 OLM 모델들의 최첨단(SOTA) 성능을 달성하거나 그에 근접함을 입증했습니다. 76개 벤치마크 중 50개 이상에서 1조 2,000억 토큰의 학습 데이터셋을 보유한 Qwen2.5-Omni를 능가했습니다.

논문 링크:https://go.hyper.ai/wETcQ

5. Think-at-Hard: 추론 언어 모델을 개선하기 위한 선택적 잠재 반복

본 논문은 예측하기 어려운 토큰에 대해서만 심층 반복을 수행하는 동적 암묵적 사고 메커니즘인 Think-at-Hard(TaH)를 제안합니다. 이 방법은 표준 순방향 전파가 부정확할 수 있는 토큰에 대해서만 암묵적 반복을 트리거하는 경량 신경망 의사결정자를 도입합니다. 암묵적 반복 과정에서 저순위 적응(LoRA) 모듈은 LLM의 목표를 일반적인 다음 토큰 예측에서 하드 토큰의 미세 조정에 집중하는 방향으로 전환합니다.

논문 링크:https://go.hyper.ai/jp3xw

더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ

커뮤니티 기사 해석

1. 학제 간 혁신은 인간의 능력을 훨씬 뛰어넘는가? AI 과학자들은 가설을 제시하고, 실험을 수행하고, 주요 학회에서 발표하며 과학 연구의 새로운 패러다임을 선도하고 있습니다.

2024년 8월, 트랜스포머 논문의 저자 중 한 명인 라이언 존스가 설립한 사카나 AI는 세계 최초의 "AI 과학자"를 선보였습니다. 이 과학자는 스스로 연구 질문을 제안하고, 실험을 설계하고, 논문을 작성할 수 있었으며, 이는 전 세계 과학계에 큰 반향을 일으켰습니다. 자동화된 실험에서 자율적인 발견에 이르기까지, AI는 연구 조수에서 "공동 연구자"로 도약하고 있습니다. AI가 실험실에 들어오면 과학의 미래는 어떻게 바뀔까요?

전체 보고서 보기:https://go.hyper.ai/ICpf1

2. 온라인 튜토리얼 | 객체 감지, "글로벌 인식" 시대로 진입: 청화대학교 등, YOLOv13 출시, 속도와 정확도 모두 혁신 달성

칭화대학교, 타이위안이공대학교, 시안교통대학교 전문가들로 구성된 공동 연구팀은 "관련성 모델링"을 이진 구조에서 진정한 고차 구조로 확장하는 새로운 객체 탐지 모델인 YOLOv13을 제안했습니다. 연구 결과에 따르면 YOLOv13은 소규모 모델(N 시리즈)부터 대규모 모델까지 MS COCO 모델 대비 상당한 성능 향상을 보이며, 더 적은 매개변수와 FLOP(플롭)로 최첨단 탐지 성능을 달성했습니다. 특히, YOLOv13-N은 YOLOv11-N 대비 mAP(초당 평균 검출 횟수)를 3.01 TP3T, YOLOv12-N 대비 1.51 TP3T 향상시켰습니다.

전체 보고서 보기:https://go.hyper.ai/W4vib

3. 이미지 위치 정보의 획기적인 발전! 메인 대학교, 구글, OpenAI 등은 LocDiff 프레임워크를 제안하여 그리드나 참조 라이브러리 없이도 정확한 전역 위치 정보를 달성했습니다.

메인 대학교, 구글, 하버드 대학교로 구성된 공동 연구팀은 "구면 조화 디랙 함수(SHDD)"와 이를 통합한 프레임워크인 LocDiff를 제안했습니다. 구면 기하에 적합한 인코딩 방식과 확산 아키텍처를 구축함으로써, 사전 설정된 그리드나 외부 이미지 라이브러리에 의존하지 않고도 정확한 위치 추정을 달성하여 해당 분야에 획기적인 기술적 길을 제시합니다.

전체 보고서 보기:https://go.hyper.ai/Ucsq8

4. MOF-ChemUnity는 9,874개의 논문에서 15,000개의 결정 구조에 이르기까지 MOF에 대한 광범위한 지식을 재구성하여 "해석 가능한 AI" 시대로 소재 발견을 앞당깁니다.

토론토 대학교와 캐나다 국립연구위원회 산하 청정에너지혁신연구센터 연구팀은 구조화되고 확장 가능하며 확장 가능한 지식 그래프인 MOF-ChemUnity를 제안했습니다. 이 방법은 LLM을 활용하여 문헌에 나타난 MOF 명칭 및 동의어와 CSD에 등록된 결정 구조 간의 신뢰할 수 있는 일대일 매핑을 구축하여 MOF 명칭 및 동의어, 그리고 결정 구조 간의 모호성을 해소합니다.

전체 보고서 보기:https://go.hyper.ai/cRR1o

5. 세탁소부터 엘리자베스 여왕 공학상까지, 페이페이 리는 실리콘 밸리의 기술 신화에 도전하며 AI의 비인간화 위험에 초점을 맞춥니다.

2025년 봄, 페이페이 리(Fei-Fei Li)는 컴퓨터 비전과 딥러닝 분야에 기여한 공로를 인정받아 엘리자베스 여왕 공학상을 수상했습니다. ImageNet 프로젝트의 핵심 인물로서, 그녀는 데이터 기반 시각 인식 방법을 개척하고 "인간 중심" AI 철학을 제시하며 실리콘 밸리의 상업화 물결 속에서 AI 윤리, 사회적 가치, 그리고 비인간화의 위험에 대한 경계를 유지했습니다. 그러나 그녀의 소수 민족적 지위는 과학적 업적과 산업적 관행 사이의 미묘한 경계에 놓여 있어 지속적인 논쟁을 불러일으켰습니다.

전체 보고서 보기:https://go.hyper.ai/bRu25

인기 백과사전 기사

1. 달-이

2. 하이퍼네트워크

3. 파레토 전선

4. 양방향 장단기 메모리(Bi-LSTM)

5. 상호 순위 융합

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

https://go.hyper.ai/wiki

12월 마감일이 있는 최고 컨퍼런스

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1800개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 600개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함

* 200개 이상의 AI4Science 논문 사례 해석

* 600개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai