Orpheus TTS는 기계적 감각에 작별을 고하고, 실시간 대화는 친구처럼 자연스러워졌습니다. OpenCodeReasoning은 방대한 데이터를 오픈소스로 처리하여 프로그래밍 추론의 새로운 수준을 열어줍니다.

텍스트-음성 모델은 최근 몇 년 동안 상당한 진전을 이루었지만, 기존 모델은 여전히 실제 적용에 많은 한계가 있습니다. 대부분 모델은 단일 음색의 음성만 생성할 수 있으며, 풍부한 감정을 담은 음성은 생성할 수 없습니다. 이러한 과제를 해결하기 위해 Canopy Labs는 텍스트-음성 모델인 Orpheus-TTS를 오픈 소스로 공개했습니다.
Orpheus-TTS는 자연스럽고 감정적이며 인간 수준에 가까운 음성을 생성할 수 있습니다.이 제품은 제로 샘플 음성 복제 기능을 갖추고 있어 사전 학습 없이도 특정 음성을 모방할 수 있습니다.사용자는 태그를 사용하여 음성의 감정 표현을 제어하고 음성의 사실성을 높일 수 있습니다. 이 모델의 지연 시간은 약 200밀리초로 매우 짧아 사용자가 실시간 애플리케이션을 구현하는 데 도움이 됩니다.
현재,HyperAI가 이제 온라인입니다「Orpheus TTS: 다국어 텍스트 음성 변환 모델",와서 드셔보세요~
온라인 사용:https://go.hyper.ai/FGexv
5월 26일부터 5월 29일까지 hyper.ai 공식 웹사이트가 업데이트되었습니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼: 12개
* 커뮤니티 게시물 선정 : 3개 게시물
* 인기 백과사전 항목: 5개
* 6월 마감일 상위 컨퍼런스: 3
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. EMMA 다중 모드 추론 벤치마크 데이터 세트
이 데이터 세트는 유기화학(42%), 수학(32%), 물리학(6%), 프로그래밍(20%) 분야의 다중 모드 추론 작업에 중점을 두고 있습니다. 이 시험에는 2,788개의 질문이 포함되어 있으며, 그 중 1,796개가 새로 구성된 샘플입니다. 세분화된 업무 분할을 지원하고 이미지와 텍스트에 대한 공동 이해 능력을 향상시키는 것을 목표로 합니다. 데이터 작업 유형에는 화학 반응 시뮬레이션, 수학적 그래픽 추론, 물리적 경로 추적, 프로그래밍 시각화 등이 있습니다.
직접 사용:https://go.hyper.ai/HtL1N

2. 얼굴 표정 얼굴 표정 YOLO 형식 감지 데이터 세트
이 데이터 세트는 감정 인식을 위한 YOLO 형식의 데이터 세트로, 타겟 탐지 및 분류 모델의 훈련과 평가를 위해 설계되었습니다. 이 데이터 세트에는 총 70,000개 정도의 이미지가 포함되어 있으며, 기본 감정 유형과 복잡한 감정 유형을 모두 고려하여 9가지 얼굴 표정 카테고리를 다룹니다. 컴퓨터 비전에서의 감정 인식, 인간-컴퓨터 상호작용, 정신 건강 분석, 지능형 모니터링과 같은 응용 시나리오에 적합합니다.
직접 사용:https://go.hyper.ai/K6iIH

3. GeneralThought-430K 대규모 추론 데이터 세트
이 데이터 세트에는 수학, 코드, 물리학, 화학, 자연 과학, 인문학 및 사회 과학, 공학 기술 등의 분야의 문제를 다루는 430,000개의 샘플이 포함되어 있으며, 여기에는 여러 추론 모델의 질문, 참조 답변, 추론 궤적, 최종 답변 및 기타 메타데이터가 포함됩니다.
직접 사용:https://go.hyper.ai/xdSzd
4. S1k-1.1 수학적 추론 데이터 세트
이 데이터 세트는 1,000개의 샘플을 포함하는 수학적 문제 추론 데이터 세트입니다. DeepSeek r1은 대수, 기하, 확률 등 여러 수학 분야를 포괄하여 수학적 문제와 추론 경로에 중점을 둡니다. 각 샘플에는 DeepSeek r1에서 생성된 문제 설명, 문제 해결 단계, 답변 및 추론 경로가 포함되어 있습니다.
직접 사용:https://go.hyper.ai/MtvcV
5. HPA 인간 단백질 아틀라스 데이터 세트
이 데이터 세트는 다양한 세포소기관에 존재하는 수천 개의 인간 단백질의 공간적 분포를 다루는 다수의 고해상도 공초점 현미경 이미지를 포함하는 인간 단백질 아틀라스(HPA) 데이터베이스의 데이터로 구성되어 있습니다. 이는 단백질 세포내 위치 연구를 위한 중요한 공공 자원입니다. 모델에 대한 공정한 평가.
직접 사용:https://go.hyper.ai/Dhuwt
6. ZeroSearch 질문 답변 데이터 세트
이 데이터 세트에는 과학적 지식, 역사적 사건, 영화 및 TV 엔터테인먼트, 지리, 인문학 등 다양한 분야를 포괄하는 약 17만 개의 샘플이 포함되어 있습니다. 또한 사실 관련 질문, 정의 관련 질문, 참/거짓 관련 질문 등을 다루며, 소규모 및 중규모의 질의응답 모델을 훈련하는 데 적합합니다. 신중하게 설계된 질문-답변 쌍을 통해 모델의 상식적 추론, 사실적 기억, 논리적 추론 능력을 평가하고, 자연어 처리 분야에 대한 표준화된 교육 및 테스트 리소스를 제공하는 것을 목표로 합니다.
직접 사용:https://go.hyper.ai/OkvBx
7. SocialMaze 논리적 추론 벤치마크 데이터 세트
이 데이터 세트는 다중 에이전트 상호 작용 시나리오에서 숨겨진 역할 추론 작업에 초점을 맞춘 사회적 추론 벤치마크 데이터 세트입니다. 이 연구는 복잡한 사회 환경에서 대규모 언어 모델(LLM)의 논리적 추론, 속임수 탐지 및 다중 라운드 대화 이해 능력을 평가하고, LLM의 사회적 추론 능력을 연구하기 위한 표준화된 테스트 플랫폼을 제공하는 것을 목표로 합니다.
직접 사용:https://go.hyper.ai/Cch64
8. OpenCodeReasoning 프로그래밍 추론 데이터 세트
이 데이터 세트는 대규모 언어 모델(LLM)에 대한 고품질 프로그래밍 추론 교육 데이터를 제공하고 코드 생성 및 논리적 추론 기능의 향상을 촉진하는 것을 목표로 합니다. 이 데이터 세트에는 28,319개의 고유한 프로그래밍 문제를 다루는 735,255개의 샘플이 포함되어 있으며, 현재 사용 가능한 가장 큰 추론 프로그래밍 데이터 세트 중 하나입니다.
직접 사용:https://go.hyper.ai/ofjBJ
9. MLDR 다국어 문서 검색 데이터 세트
이 데이터 세트는 13개의 다양한 언어를 포함합니다. 이는 Wikipedia, Wudao 및 mC4 다국어 코퍼스를 기반으로 구축된 다국어 장문서 검색 데이터 세트입니다. 이 프로젝트의 목적은 여러 언어의 장문 텍스트 검색 작업에 대한 연구 개발을 지원하는 것입니다.
직접 사용:https://go.hyper.ai/Le0G8
10. MP-20-PXRD 원자재료 벤치마크 데이터 세트
이 데이터 세트는 Materials Project 데이터베이스에서 샘플링한 재료로 구성되며, 단위 셀에는 최대 20개의 원자가 들어 있습니다. 여기에는 90%, 7.5%, 2.5%의 비율로 학습, 검증, 테스트에 사용되는 45,229개의 자료가 포함되어 있습니다.
직접 사용:https://go.hyper.ai/bUKbv
선택된 공개 튜토리얼
이번 주에는 고품질 공개 튜토리얼을 4가지 범주로 요약했습니다.
* 오디오 합성 튜토리얼: 5
* 이미지 생성 튜토리얼: 3
* 영상 합성 튜토리얼 : 2
* 수학적 추론 튜토리얼: 2
오디오 합성 튜토리얼
1. Orpheus TTS: 다국어 텍스트 음성 변환 모델
Orpheus-TTS는 자연스럽고 감정적이며 인간 수준에 가까운 음성을 생성할 수 있으며, 제로 샘플 음성 복제 기능을 갖추고 있으며, 사전 학습 없이 특정 음성을 모방할 수 있습니다. 사용자는 태그를 사용하여 음성의 감정 표현을 제어하고 음성의 사실성을 높일 수 있습니다. Orpheus TTS는 약 200밀리초의 낮은 지연 시간을 가지고 있어 실시간 애플리케이션에 적합합니다.
이 튜토리얼에서는 리소스로 단일 RTX 4090 카드를 사용합니다. 컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.
온라인으로 실행:https://go.hyper.ai/FGexv

2. ACE-Step: 음악 생성을 위한 기본 모델
ACE-Step-v1-3.5B는 A100 GPU에서 단 20초 만에 최대 4분 분량의 음악을 합성합니다. 이는 LLM 기반 기준보다 15배 빠른 속도이며, 멜로디, 하모닉, 리듬 측면에서 뛰어난 음악적 일관성과 가사 정렬을 구현합니다. 더욱이 이 모델은 섬세한 음향적 디테일을 보존하여 음성 복제, 가사 편집, 리믹스, 트랙 생성과 같은 고급 제어 메커니즘을 구현합니다.
이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다. 컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.
온라인으로 실행:https://go.hyper.ai/Qjxmu

3. MegaTTS3의 원클릭 배포
MegaTTS 3는 최첨단 제로샷 TTS 음성 품질을 구현하고 악센트 강도에 대한 매우 유연한 제어를 지원하는 혁신적인 희소 정렬 가이드 잠재 확산 변환기(DiT) 알고리즘을 탑재한 TTS 시스템입니다. 주로 입력 텍스트를 고품질의 자연스럽고 유창한 음성 출력으로 변환하는 데 사용됩니다.
이 튜토리얼에서는 RTX 4090 카드 하나를 사용합니다. 아래 링크를 사용하면 클릭 한 번으로 배포할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/rujKs

4. Parakeet-tdt-0.6b-v2 음성 인식
Parakeet-tdt-0.6b-v2는 FastConformer 인코더 아키텍처와 TDT 디코더를 기반으로 하며, 한 번에 최대 24분 분량의 영어 오디오 클립을 효율적으로 필사할 수 있습니다. 이 모델은 고정밀, 저지연 영어 음성 변환 작업에 중점을 두고 있으며 실시간 영어 음성-텍스트 변환 시나리오(예: 고객 서비스 대화, 회의 기록, 음성 지원 등)에 적합합니다.
이 튜토리얼에서는 단일 RTX 4090 컴퓨팅 리소스를 사용하며, 모델은 영어 음성 인식만 지원합니다.
온라인으로 실행:https://go.hyper.ai/pWmfu

5. Dia-1.6B: 감정 음성 합성 데모
Dia-1.6B는 텍스트 스크립트에서 바로 매우 사실적인 대화를 생성할 수 있으며 오디오 기반 감정 및 톤 제어를 지원합니다. 웃음소리, 기침소리, 목 가다듬는 소리 등 비언어적 의사소통 소리도 생성하여 대화를 더 자연스럽고 생생하게 만들어줍니다. 이 프로젝트에서는 사용자가 직접 오디오 샘플을 업로드하는 것도 지원합니다. 이 모델은 샘플을 기반으로 유사한 음성을 생성하여 샘플이 없는 음성 지문 복제를 달성합니다.
이 튜토리얼은 단일 RTX 4090 카드에 대한 리소스를 사용하며 현재는 영어 생성만 지원합니다.
온라인으로 실행:https://go.hyper.ai/5J3lp

이미지 생성 튜토리얼
1. KV-Edit 배경 일관성 이미지 편집
KV-Edit은 원본 이미지와 편집된 이미지 간의 배경 일관성을 엄격하게 유지하고, 객체 추가, 제거, 교체를 포함한 다양한 편집 작업에서 뛰어난 성능을 달성하는, 트레이닝이 필요 없는 이미지 편집 방법입니다.
이 튜토리얼에서는 RTX A6000 카드 하나를 사용합니다. 아래 링크를 클릭하면 모델을 빠르게 복제할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/wo2xJ

2. 사나 고해상도 이미지 합성
Sana는 최대 4096×4096 해상도의 이미지를 효율적으로 생성할 수 있는 텍스트-이미지 프레임워크입니다. 사나는 강력한 텍스트-이미지 정렬 기능을 갖추고 있어 매우 빠른 속도로 고해상도, 고품질 이미지를 합성할 수 있습니다.
이 튜토리얼에서는 데모를 위해 Sana-1600M-1024px 모델을 사용하고, 컴퓨팅 성능 리소스에는 단일 RTX 4090 카드가 사용됩니다.
온라인으로 실행:https://go.hyper.ai/tiP36

3. 컨텍스트 내 편집: 명령 기반 이미지 생성 및 편집
In-Context Edit은 명령 기반 이미지 편집을 위한 효율적인 프레임워크입니다. 이전 방법과 비교했을 때, ICEdit은 학습 가능한 매개변수가 1%(200M)에 불과하고 학습 데이터는 0.1%(50k)에 불과하여 강력한 일반화 능력을 보이며 다양한 편집 작업을 처리할 수 있습니다. Gemini나 GPT4o 등의 상용 모델과 비교했을 때, 더 오픈 소스이고, 비용이 낮으며, 빠르고, 성능이 더 강력합니다.
이 튜토리얼에서는 단일 RTX 4090 카드를 리소스로 사용합니다. 공식적으로 언급된 9초의 이미지 생성 시간을 달성하려면 더 높은 사양의 그래픽 카드가 필요합니다. 현재는 영어 텍스트 설명만 지원됩니다.
온라인으로 실행:https://go.hyper.ai/Ytv6C

비디오 생성 튜토리얼
1. TransPixeler: 텍스트에서 RGBA 비디오 생성
TransPixeler는 원래 RGB 모델의 장점을 유지하고 제한된 학습 데이터로 RGB와 알파 채널 간의 강력한 정렬을 달성하여 다양하고 일관된 RGBA 비디오를 효과적으로 생성하고, 이를 통해 시각적 효과와 대화형 콘텐츠 제작의 가능성을 확대합니다.
이 튜토리얼에서는 리소스로 단일 RTX A6000 카드를 사용하며, 텍스트 설명은 현재 영어로만 지원됩니다.
온라인으로 실행:https://go.hyper.ai/1OFP9

2. FramePack 저비디오 메모리 비디오 생성 데모
FramePack은 혁신적인 신경망 아키텍처를 사용하여 기존 비디오 생성 방식에서 발생하는 높은 비디오 메모리 사용량, 드리프트, 망각과 같은 문제를 효과적으로 해결하고 하드웨어 요구 사항을 크게 줄입니다.
이 튜토리얼에서는 컴퓨팅 리소스로 RTX 4090을 사용합니다. 컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.
온라인으로 실행:https://go.hyper.ai/rYELB

수학적 추론 튜토리얼
1. vLLM+Open WebUI를 사용하여 OpenMath-Nemotron-1.5B 배포
이 모델은 OpenMathReasoning 데이터 세트에서 Qwen/Qwen2.5-Math-1.5B를 미세 조정하여 생성되었습니다. 이 모델은 인기 있는 수학적 벤치마크에서 최첨단 결과를 달성했으며 이제 상업적 사용을 위한 라이선스를 받았습니다.
이 튜토리얼의 컴퓨팅 리소스는 단일 RTX 4090 카드를 사용하고, 수학 문제 계산만 지원하며, 답변은 영어로 제공됩니다.
온라인으로 실행:https://go.hyper.ai/rasEm

2. vLLM+Open WebUI를 사용하여 DeepSeek-Prover-V2-7B 배포
DeepSeek-Prover-V2-7B의 가장 중요한 특징은 비공식적인 수학적 추론(즉, 인간이 일반적으로 사용하는 추론 방법)과 엄격한 형식적 증명을 원활하게 결합하여 모델이 인간만큼 유연하게 생각하고 컴퓨터만큼 엄격하게 증명할 수 있게 하는 능력입니다. 이를 통해 수학적 추론의 통합적 융합을 달성합니다.
이 튜토리얼에서는 리소스로 단일 RTX A6000 카드를 사용합니다. 이 모델은 수학적 추론 문제만 지원합니다.
온라인으로 실행:https://go.hyper.ai/JYCI2

커뮤니티 기사
1. Nature의 하위 저널에 게재되었습니다! 화중과학기술대학은 여러 센터와 전문 분야에 걸쳐 패혈성 쇼크의 사망 위험을 정확하게 예측하기 위해 융합 전략 AI 모델을 제안했습니다.
화중과학기술대학교 통지의과대학 부속 통지병원과 의료건강관리학원 연구팀은 혁신적인 TOPSIS 기반 분류 융합(TCF) 모델을 제안하여 중환자실에서 패혈성 쇼크를 앓은 환자의 28일 이내 사망 위험을 예측했습니다. 이 모델은 7개의 머신 러닝 모델을 통합하고, 전문가 간, 다중 센터 검증에서 높은 안정성과 정확성을 보입니다.
전체 보고서 보기:https://go.hyper.ai/K42Fp
2. 옥스퍼드대 등은 746만 명의 성인 건강 데이터를 심층 분석해 조기 검진 알고리즘을 개발하고 혈액 지표를 기반으로 15가지 암 유형을 조기에 예측하는 데 성공했다.
런던 퀸 메리 대학교와 옥스퍼드 대학교 연구팀은 영국 성인 746만 명의 익명 전자 건강 기록을 기반으로 두 가지 새로운 암 예측 알고리즘을 개발하기 위해 협업했습니다. 기본 알고리즘은 전통적인 임상적 요인과 증상 변수를 통합하고, 고급 알고리즘은 전혈구 수와 간 기능 검사와 같은 혈액 지표를 추가로 통합합니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.
전체 보고서 보기:https://go.hyper.ai/12a8Z
3. ICML 2025에 선정된 청화대/인민대/바이트는 다양한 유형의 약물 분자 설계를 달성하기 위한 최초의 교차 분자 통합 생성 프레임워크 UniMoMo를 제안했습니다.
청화대학교의 류양 교수 팀은 인민대학교와 바이트댄스 팀과 함께 분자 종 전반에 걸친 통합 생성 프레임워크인 UniMoMo를 공동으로 제안했습니다. 이 프레임워크는 분자 조각을 기반으로 다양한 유형의 분자를 균일하게 표현하여 동일한 표적에 대해 다양한 유형의 결합 분자를 설계할 수 있게 해줍니다. 이 글은 연구에 대한 자세한 해석과 공유입니다.
전체 보고서 보기:https://go.hyper.ai/e96ci
인기 백과사전 기사
1. 게이트형 순환 유닛
2. 역순 정렬 퓨전
3. 3차원 가우시안 산란
4. 사례 기반 추론
5. 양방향 장기 단기 기억
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.https://go.hyper.ai/wiki
정상회담 6월 마감일
VLDB 2026 6월 2일 7:59:59
S&P 2026 6월 6일 7:59:59
ICDE 2026 6월 19일 7:59:59
최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!