제로 샘플링 TTS의 혁신! 단 몇 초의 레퍼런스 오디오만으로 OmniVoice는 수백 가지 언어를 손쉽게 복제할 수 있도록 도와줍니다. 17개 언어를 한 번에 지원: MDPbench는 리소스가 부족한 텍스트 시스템의 구문 분석 문제를 해결합니다.

3달 전

기존의 제로샷 텍스트 음성 변환(TTS) 모델은 일반적으로 몇 가지 언어만 지원하며, 리소스가 부족한 다수의 언어를 간과합니다. 이러한 한계를 극복하기 위해,샤오미 AI 랩의 차세대 칼디 팀이 600개 이상의 언어를 지원하는 대규모 다국어 제로샷 TTS 모델인 옴니보이스(OmniVoice)를 출시했습니다.기존의 번거로운 2단계 계층형 아키텍처를 버리고 간소화된 단일 단계 이산 비자기회귀(NAR) 프레임워크를 채택하여 텍스트를 음성 마커에 직접 매핑합니다. 581,000시간 분량의 순수 오픈 소스 데이터로 학습된 OmniVoice는 현재까지 가장 광범위한 언어 범위를 지원합니다.

현재 HyperAI 웹사이트에서 [해당 섹션/기능]을 출시했습니다.OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.와서 한번 드셔보세요!

온라인 사용:https://go.hyper.ai/BvKri

더 자세한 정보를 원하시면 저희 공식 웹사이트를 방문해 주세요.

https://hyper.ai

4월 11일부터 4월 17일까지 hyper.ai 공식 웹사이트의 주요 업데이트 사항을 간략하게 살펴보겠습니다.

* 고품질 공개 데이터 세트: 11개

* 엄선된 고품질 튜토리얼: 6개

* 커뮤니티 게시글 분석: 2개 게시글

* 인기 백과사전 항목: 5개

4월 마감인 주요 컨퍼런스: 2개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. 뇌졸중 위험 데이터 세트

뇌졸중 위험 데이터셋은 의료 환경에서 뇌졸중 위험을 분석하고 예측하기 위한 데이터셋입니다. 일반적인 임상 위험 요인을 기반으로 구축된 이 데이터셋에는 인구 통계 정보, 병력, 생활 습관 요인 및 주요 건강 지표가 포함됩니다. 다양한 건강 및 생활 습관 조건에서 뇌졸중 발생 확률을 반영하여 머신러닝 모델의 뇌졸중 위험 예측 및 분석을 지원하고, 주요 영향 요인을 파악하여 조기 검진 및 예방 역량을 향상시키는 것을 목표로 합니다.

온라인 사용:https://go.hyper.ai/6CTH5

2. ToolACE 복합 도구 학습 대화 데이터 세트

ToolACE는 도구 학습 작업을 위한 자동화된 에이전트 파이프라인 데이터셋입니다. 이 데이터셋은 26,507개의 다양한 API를 호출하는 다단계 대화 예제를 포함합니다. 샘플은 다중 에이전트 상호작용을 통해 생성되며, 규칙 검사 및 모델 검증의 2단계 품질 보증 프로세스를 거칩니다. 각 대화는 다단계, 다중 소스 정보 검색 및 분석 작업을 나타내며, 도구 호출 시나리오를 현실적으로 시뮬레이션하여 저수준 학습(LLM)을 위한 가치 있는 학습 데이터를 제공합니다.

온라인 사용:https://go.hyper.ai/o3E12

3.CHOCLO 라틴 아메리카 문화 벤치마크 데이터 세트

CHOCLO 데이터셋은 언어 모델이 라틴 아메리카 문화를 얼마나 잘 이해하고 있는지 평가하기 위해 특별히 설계된 벤치마크 데이터셋입니다. 이 데이터셋은 언어 모델이 라틴 아메리카 문화를 얼마나 정확하게 표현하는지 측정하고, 언어 모델에서 라틴 아메리카 문화가 과소평가되거나, 누락되거나, 편향되는 등의 현실적인 문제를 해결하고자 합니다.

온라인 사용:https://go.hyper.ai/pjVQi

4. DRACO 학제간 심층 연구 벤치마크 데이터 세트

Perplexity 팀에서 공개한 DRACO 데이터셋은 복잡한 연구 작업을 평가하기 위해 설계된 데이터셋으로, 정확성, 완전성 및 객관성 측면에서 심층 연구 시스템의 종합적인 역량을 체계적으로 평가하는 것을 목표로 합니다.

온라인 사용:https://go.hyper.ai/hIWgS

5. MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

MDPBench는 다국어 디지털 및 사진 문서를 구문 분석하기 위한 벤치마크 데이터 세트로, 실제 복잡한 시나리오에서 다국어 문서를 구문 분석하는 모델의 능력을 평가하고 개선하기 위해 설계되었습니다.

온라인 사용:https://go.hyper.ai/1Mc9a

6. 월드 모델 벤치 데이터셋

월드 모델 벤치(World Model Bench)는 세계 모델과 인공지능 시스템의 인지 능력을 평가하기 위한 세계 최초의 벤치마크입니다. 기존의 이미지 및 비디오 품질 평가를 넘어 모델의 인지 능력에 초점을 맞추고 있습니다. 이 데이터셋은 세계 모델의 능력을 평가하기 위해 구축되었으며, 지각, 인지, 구현이라는 세 가지 핵심 차원을 포괄합니다. 환경 이해, 개체 인식 및 분류, 예측 기반 추론 등 10가지 작업 범주로 세분화되어 있으며, 복잡한 환경에서 모델의 인지 및 의사결정 능력을 체계적으로 평가하도록 설계된 100가지의 다양한 시나리오를 포함합니다.

온라인 사용:https://go.hyper.ai/hY0aP

7. 신용카드 사기 탐지 데이터 세트

신용카드 사기 탐지 데이터셋은 금융 거래 시나리오에서 신용카드 사기를 탐지하기 위한 것입니다. 이 데이터셋은 머신러닝 모델이 비정상적인 거래를 식별하고 모델링하는 데 도움을 주는 것을 목표로 하며, 특히 금융 시나리오에서 발생하는 극단적인 클래스 불균형 문제를 해결하여 실제 비즈니스 환경에서 모델의 탐지 능력을 향상시키는 데 중점을 둡니다.

온라인 사용:https://go.hyper.ai/3d8nS

8. 스팸 이메일 탐지 데이터 세트

스팸 이메일 탐지 데이터셋은 스팸 탐지 작업을 위한 레이블이 지정된 이메일 데이터셋입니다. 이 데이터셋은 분류 모델링, 자연어 처리 및 특징 엔지니어링 관련 연구를 지원하고 모델의 스팸 식별 능력을 향상시키는 것을 목표로 합니다.

온라인 사용:https://go.hyper.ai/HkpX5

9. 간단한 음성 질문 데이터셋

Simple Voice Questions는 Google에서 공개한 짧은 음성 데이터셋입니다. 이 다국어 음성 데이터셋은 26개 지역에서 약 700명의 화자가 17개 언어로 녹음한 짧은 질문들로 구성되어 있습니다. 각 화자는 최대 250개의 음성 샘플을 제공하며, 아랍어, 영어, 일본어, 한국어, 힌디어 등 다양한 언어를 포함하고, 조용한 환경, 배경 소음, 교통 소음 등 다양한 녹음 환경을 담고 있습니다.

온라인 사용:https://go.hyper.ai/lrKpK

10. COCO-2017-베트남어 이미지 검출 데이터셋

COCO-2017-Vietnamese는 Microsoft에서 제안하고 AI Enthusiasm 커뮤니티에서 수집 및 공개한 Common Objects in Context 2017 데이터셋을 기반으로 구축된 베트남어 현지화 확장 데이터셋입니다. 이 데이터셋은 원본 영어 이미지 설명 위에 고품질 베트남어 번역을 추가하여 이미지 캡셔닝 및 멀티모달 학습과 같은 작업에 적합한 포괄적인 이중 언어 환경 벤치마크를 제공합니다.

온라인 사용:https://go.hyper.ai/VM6gY

11. GPT-5.4 단계별 추론 데이터셋

GPT-5.4 단계별 추론 데이터셋은 긴 연쇄 추론(CoT) 모델링 및 복잡한 문제 해결 작업을 위해 설계된 고밀도 합성 추론 데이터셋입니다. 이 데이터셋은 수학, 프로그래밍, 의학 등 고난이도 영역을 포괄하는 약 1,500개의 최상위 수준 샘플을 포함하며, 작업 난이도는 "그랜드마스터" 및 "박사 이상" 수준으로 균일하게 설정되어 있습니다.

온라인 사용:https://go.hyper.ai/HjJlT

선택된 공개 튜토리얼

1. 옴니보이스: 600개 이상의 언어로 고품질 TTS(텍스트 음성 변환)를 지원합니다.

OmniVoice는 샤오미 AI 연구소의 차세대 Kaldi 팀에서 개발한 다국어 텍스트 음성 변환(TTS) 모델로, 600개 이상의 언어로 고품질 음성 합성을 지원합니다. 반복적인 마스크 해제 디코딩 아키텍처를 기반으로 음성 복제, 음성 디자인, 자동 음성 생성이라는 세 가지 핵심 기능을 구현합니다.

온라인으로 실행:https://go.hyper.ai/BvKri

2. 딥튜터 개인 학습 도우미

딥튜터(DeepTutor)는 홍콩대학교 데이터 인텔리전스 연구소에서 2026년 3월에 출시한 종합적인 AI 기반 교육 시스템이자 개인 학습 도우미입니다. 이 프로젝트는 방대한 문서 기반 지식 질의응답, 대화형 학습 시각화, 지식 강화 및 연습 문제 생성, 심층 연구 및 창의적 생성 등 네 가지 핵심 기능 모듈을 통합하여 학습자에게 원스톱 지능형 학습 경험을 제공합니다.

온라인으로 실행:https://go.hyper.ai/8YnI3

3. VoxCPM2 음성 재현: 30개 이상의 언어, 9개 방언 지원

VoxCPM2는 OpenBMB에서 2026년 4월에 출시한 20억 파라미터 규모의 토크나이저 없는 텍스트 음성 변환 모델입니다. 30개 언어를 지원하며, 추가적인 언어 태그가 필요하지 않고, 처음부터 새로운 음색을 생성하는 것부터 참조 오디오 기반의 제어된 복제, 참조 오디오와 전사된 텍스트를 결합하여 극단적인 복제, 텍스트 내용에 따라 톤과 표현력을 자동으로 조정하는 것까지 다양한 사용 사례를 지원합니다. 공식 사양에서는 48kHz 출력, 16kHz 참조 오디오와의 호환성, 그리고 문맥 인식 표현을 강조합니다.

온라인으로 실행:https://go.hyper.ai/RLgK9

4. Nemotron-Cascade-2-30B-A3B의 원클릭 설치

NVIDIA에서 2026년 3월에 출시한 Nemotron-Cascade-2-30B-A3B는 300억 개의 MoE와 약 30억 개의 활성화 매개변수를 가진 오픈 소스 대규모 언어 모델로, Nemotron-3-Nano-30B-A3B-Base 데이터셋으로 학습되었습니다. 이 모델은 강력한 추론, 대화, 코드 관련 및 행위자 기능을 제공하는 데 중점을 두고 있으며, 사고 모드와 지시 모드를 동시에 지원합니다.

온라인으로 실행:https://go.hyper.ai/GoEaW

5. 넷플릭스 VOID: 물리적 인식을 기반으로 한 혁신적인 영상 객체 제거 기술.

Netflix VOID는 Netflix 팀과 소피아 대학교가 공동으로 2026년 4월에 오픈소스로 공개한 비디오 편집 모델입니다. 50억 개의 파라미터를 가진 Netflix VOID 모델은 영화 후반 작업에서 발생하는 물리적 일관성 문제를 해결하고, 복잡한 객체 상호작용의 인과 관계를 처리하는 데 있어 기존 비디오 완성 기술의 한계를 극복하는 것을 목표로 설계되었습니다.

온라인으로 실행:https://go.hyper.ai/uZoMl

6. Fun-CineForge: 다양한 영화 및 TV 시나리오에서 제로 샘플 더빙을 위한 통합 모델

Fun-CineForge는 2026년 1월 Tongyi Labs 음성 팀과 중국과학기술대학교가 공동으로 시작한 제로샷 영화 더빙 프로젝트입니다. 이 프로젝트는 대규모 더빙 데이터셋 생성을 위한 엔드투엔드 데이터셋 파이프라인과 다양한 영화 시나리오에 맞춰 설계된 대규모 멀티모달 모델(LMM) 기반의 더빙 모델을 포함합니다.

온라인으로 실행:https://go.hyper.ai/DyQKk

커뮤니티 기사 해석

1. AI 기반의 다양한 소분자 결합 단백질의 새로운 설계: 한국 연구팀이 스트레스 호르몬을 선택적으로 인식할 수 있는 단백질을 발견했습니다.

한국과학기술원(KAIST) 생명과학부 연구팀은 딥러닝 기반 단백질 구조 생성 및 서열 설계 방법을 활용하여 NTF2 유사 접힘 구조를 핵심 "범용 골격"으로 삼아 다양한 소분자 결합 단백질을 새롭게 설계하고, 이를 화학적 유도 이합체화(CID)와 유사한 센서로 변환했습니다. 연구팀은 스트레스 호르몬인 코르티솔을 선택적으로 인식하는 단백질을 성공적으로 설계하고, 이를 기반으로 인공지능 바이오센서를 개발했습니다.

전체 보고서 보기:https://go.hyper.ai/FpAXm

2. 프랑스 연구팀은 239만 개의 항파지 단백질을 성공적으로 예측하고 딥러닝 모델을 사용하여 박테리아의 항바이러스 면역을 분석했습니다.

프랑스 파스퇴르 연구소의 연구진은 대규모 파지 내성 예측을 위한 세 가지 상호 보완적인 딥러닝 모델을 개발하고 최적화했습니다. ALBERT_DF 모델은 추론에 국소적인 유전체 맥락만을 활용하고, ESM_DF는 단백질 언어 모델을 사용하여 아미노산 서열을 분석하며, GeneCLR_DF는 서열 정보와 유전체 맥락을 통합합니다.

전체 보고서 보기:https://go.hyper.ai/J5Oz3

제로 샘플링 TTS의 혁신! 단 몇 초의 레퍼런스 오디오만으로 OmniVoice는 수백 가지 언어를 손쉽게 복제할 수 있도록 도와줍니다. 17개 언어를 한 번에 지원: MDPbench는 리소스가 부족한 텍스트 시스템의 구문 분석 문제를 해결합니다.

3달 전

현재 HyperAI 웹사이트에서 [해당 섹션/기능]을 출시했습니다.OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.와서 한번 드셔보세요!

온라인 사용:https://go.hyper.ai/BvKri

더 자세한 정보를 원하시면 저희 공식 웹사이트를 방문해 주세요.

https://hyper.ai

4월 11일부터 4월 17일까지 hyper.ai 공식 웹사이트의 주요 업데이트 사항을 간략하게 살펴보겠습니다.

* 고품질 공개 데이터 세트: 11개

* 엄선된 고품질 튜토리얼: 6개

* 커뮤니티 게시글 분석: 2개 게시글

* 인기 백과사전 항목: 5개

4월 마감인 주요 컨퍼런스: 2개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. 뇌졸중 위험 데이터 세트

온라인 사용:https://go.hyper.ai/6CTH5

2. ToolACE 복합 도구 학습 대화 데이터 세트

온라인 사용:https://go.hyper.ai/o3E12

3.CHOCLO 라틴 아메리카 문화 벤치마크 데이터 세트

온라인 사용:https://go.hyper.ai/pjVQi

4. DRACO 학제간 심층 연구 벤치마크 데이터 세트

온라인 사용:https://go.hyper.ai/hIWgS

5. MDPBench 다국어 문서 구문 분석 벤치마크 데이터셋

온라인 사용:https://go.hyper.ai/1Mc9a

6. 월드 모델 벤치 데이터셋

온라인 사용:https://go.hyper.ai/hY0aP

7. 신용카드 사기 탐지 데이터 세트

온라인 사용:https://go.hyper.ai/3d8nS

8. 스팸 이메일 탐지 데이터 세트

온라인 사용:https://go.hyper.ai/HkpX5

9. 간단한 음성 질문 데이터셋

온라인 사용:https://go.hyper.ai/lrKpK

10. COCO-2017-베트남어 이미지 검출 데이터셋

온라인 사용:https://go.hyper.ai/VM6gY

11. GPT-5.4 단계별 추론 데이터셋

온라인 사용:https://go.hyper.ai/HjJlT

선택된 공개 튜토리얼

1. 옴니보이스: 600개 이상의 언어로 고품질 TTS(텍스트 음성 변환)를 지원합니다.

온라인으로 실행:https://go.hyper.ai/BvKri

2. 딥튜터 개인 학습 도우미

온라인으로 실행:https://go.hyper.ai/8YnI3

3. VoxCPM2 음성 재현: 30개 이상의 언어, 9개 방언 지원

온라인으로 실행:https://go.hyper.ai/RLgK9

4. Nemotron-Cascade-2-30B-A3B의 원클릭 설치

온라인으로 실행:https://go.hyper.ai/GoEaW

5. 넷플릭스 VOID: 물리적 인식을 기반으로 한 혁신적인 영상 객체 제거 기술.

온라인으로 실행:https://go.hyper.ai/uZoMl

6. Fun-CineForge: 다양한 영화 및 TV 시나리오에서 제로 샘플 더빙을 위한 통합 모델

온라인으로 실행:https://go.hyper.ai/DyQKk

커뮤니티 기사 해석

1. AI 기반의 다양한 소분자 결합 단백질의 새로운 설계: 한국 연구팀이 스트레스 호르몬을 선택적으로 인식할 수 있는 단백질을 발견했습니다.

전체 보고서 보기:https://go.hyper.ai/FpAXm

2. 프랑스 연구팀은 239만 개의 항파지 단백질을 성공적으로 예측하고 딥러닝 모델을 사용하여 박테리아의 항바이러스 면역을 분석했습니다.

전체 보고서 보기:https://go.hyper.ai/J5Oz3

Command Palette

선택된 공개 데이터 세트

선택된 공개 튜토리얼

커뮤니티 기사 해석

인기 백과사전 기사

Command Palette

선택된 공개 데이터 세트

선택된 공개 튜토리얼

커뮤니티 기사 해석

인기 백과사전 기사

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.

Command Palette

선택된 공개 데이터 세트

선택된 공개 튜토리얼

커뮤니티 기사 해석

인기 백과사전 기사

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.

관련 뉴스

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 600개 이상의 언어 지원, 샤오미 오픈 소스 OmniVoice: 단 3~10초의 참조 오디오만으로 음성 복제 구현

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.