극도로 가볍지만 이미지 품질은 전혀 저하되지 않았습니다! ERNIE-Image-Turbo: 긴 대기 시간은 이제 그만, 초고속 속도를 경험하세요. 지각과 인지에 대한 이중 차원 측정 기준을 소개합니다. 알리바바의 통합 멀티모달 구문 분석 및 평가 데이터셋인 OmniParsingBench가 이제 온라인에서 이용 가능합니다.

3달 전

ERNIE-Image-Turbo는 Baidu에서 오픈소스로 공개한 고효율 텍스트-이미지 변환 모델입니다. 단일 스트림 확산 변환기(DiT) 아키텍처를 기반으로 하며 DMD 및 강화 학습(RL) 기법으로 심층 최적화되어 단 8단계의 추론만으로 고품질의 미적으로 뛰어난 이미지를 신속하게 생성할 수 있습니다. 탁월한 경량 설계 덕분에 응용 및 연구에 필요한 하드웨어 장벽이 크게 낮아졌습니다.

이 모델은 매우 빠른 생성 속도를 유지하면서도 뛰어난 제어성과 다재다능함을 보여줍니다. 여러 객체와 복잡한 관계를 포함하는 명령을 정확하게 실행할 수 있으며, 길고 빽빽한 텍스트와 구조화된 레이아웃을 렌더링하는 능력을 크게 향상시켜 포스터 디자인, 다중 패널 만화, 인포그래픽에 이상적입니다. 또한 사실적인 사진, 디자인 타이포그래피, 부드러운 영화적 효과 등 다양한 미적 스타일을 완벽하게 지원하여 시각적 품질과 산업용 수준의 창의적 효율성을 균형 있게 갖춘 최적의 도구입니다.

"ERNIE-Image-Turbo Raw Image Model"이 HyperAI 웹사이트에서 제공됩니다. 지금 바로 사용해 보세요!

온라인 사용:https://go.hyper.ai/hmKUg

더 자세한 정보를 원하시면 저희 공식 웹사이트를 방문해 주세요.

https://hyper.ai

4월 18일부터 4월 24일까지 hyper.ai 공식 웹사이트의 주요 업데이트 사항을 간략하게 살펴보겠습니다.

* 고품질 공개 데이터 세트: 9개

* 엄선된 고품질 튜토리얼: 5개

* 커뮤니티 게시글 분석: 2개 게시글

* 인기 백과사전 항목: 5개

* 4월 마감일 상위 컨퍼런스: 1

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

2026년 알리바바에서 출시한 OmniParsingBench는 멀티모달 대규모 모델(MLLM)의 통합 구문 분석 기능을 평가하기 위한 벤치마크 데이터셋입니다. 이 데이터셋은 약 5,294개의 샘플로 구성되어 있으며, 6가지 모달 영역(자연 이미지, 그래픽, 문서, 오디오, 자연 비디오, 텍스트 밀도가 높은 비디오)을 포괄합니다. 또한, 인지(Perc.), 인식(Cog.), 종합(Ovr.)의 세 가지 평가 지표를 제공합니다. 각 데이터셋은 이미지 또는 오디오/비디오 입력과 이에 상응하는 구조화된 구문 분석 작업을 포함합니다.

온라인 사용:https://go.hyper.ai/AqyDg

2.BRIGHT 재난 건물 평가 데이터 세트

BRIGHT는 광학 영상과 SAR(합성 개구 레이더) 데이터를 통합한 다양한 유형의 재해를 포함하는 최초의 개방형 글로벌 재해 현장 벤치마크 데이터 세트입니다. 이 데이터 세트는 14개 지역과 7가지 유형의 재해(자연 재해 5가지 + 인재 2가지)를 포괄하며, 약 4,200쌍의 영상 데이터와 38만 개 이상의 건물 정보를 포함하고 있습니다. 공간 해상도는 약 0.3~1미터입니다. 데이터는 재해 발생 이전 영상, 재해 발생 이후 영상, 그리고 대상 주석으로 구성됩니다.

온라인 사용:https://go.hyper.ai/RifVg

3. 꽃: 방글라데시 꽃 이미지 데이터 세트

Flower Bangladesh Flower Image Dataset은 컴퓨터 비전 이미지 분류 작업을 위해 설계된 데이터셋입니다. 이 데이터셋은 방글라데시에서 촬영된 다양한 꽃 종류의 실제 이미지를 포함하고 있습니다. 모든 이미지는 원본이며 합성 이미지가 아니고, 자연광 조건에서 촬영되어 풍부한 색감을 보여줍니다. 이 데이터셋은 다양한 지역 꽃 품종과 그 외형적 특징을 포괄하며, 각 범주별로 레이블이 지정되어 있습니다.

온라인 사용:https://go.hyper.ai/wirun

4. MIA 다단계 추론 및 결정 궤적 데이터셋

2026년 4월, 중국동사범대학교, 상하이혁신연구소, 하얼빈공업대학교가 공동으로 공개한 MIA(Multi-Step Reasoning and Decision Trajectory) 데이터셋은 장기 기억 및 작업 실행 능력을 갖춘 지능형 에이전트를 학습 및 평가하는 데 사용됩니다. 이 데이터셋은 문제 해결, 계획, 탐색, 실행의 전 과정을 포괄하는 약 21,000개의 추론 궤적을 포함하고 있으며, 에이전트 추론 및 강화 학습 연구에 적합합니다.

온라인 사용:https://go.hyper.ai/XITit

5. PanScale 원격 감지 팬컬러 샤프닝 데이터 세트

PanScale은 대규모 추론 및 성능 평가를 위한 벤치마크 데이터셋으로, 2026년 중국과학원, 중국과학기술대학교, 홍콩과학기술대학교가 공동으로 발표했습니다. 이 데이터셋은 8비트 TIFF 형식의 다중 스펙트럼(MS) 및 전정색(PAN) 이미지 쌍 7,559개를 포함합니다. jilin, landsat, skysat 등 다양한 하위 데이터셋을 제공하며, fjilin, flandsat, fskysat과 같은 크로스 스케일 버전까지 확장되어 동일 스케일에서 다중 스케일(최대 4.0배)에 이르는 장면 시스템 평가를 지원합니다.

온라인 사용:https://go.hyper.ai/mz2gh

6. Emotion-probes 감정 탐지 데이터셋

Emotion-probes는 감정 이해 및 모델 해석 가능성 연구를 위해 설계된 합성 텍스트 데이터셋입니다. 이 데이터셋은 모델에서 감정 벡터와 감정 마스킹 능력을 추출하는 것을 목표로 하며, 감정 분류, 모델 정렬, 보안 연구, 대규모 모델의 내부 메커니즘 분석 등 다양한 분야에서 널리 사용됩니다. 데이터셋은 약 447,000개의 샘플로 구성되어 있으며, 각 샘플에는 실제 감정, 표현된 감정, 텍스트 내용, 역할 정보 등의 필드가 포함되어 있습니다.

온라인 사용:https://go.hyper.ai/jw5FA

7. OpenMementos 컨텍스트 메모리 압축 데이터셋

OpenMementos는 마이크로소프트에서 2026년에 공개한 컨텍스트 메모리 압축 데이터셋으로, 대규모 모델의 긴 체인 추론 및 컨텍스트 관리 기능을 모델링하기 위해 설계되었습니다. 이 데이터셋은 컨텍스트 압축 및 연속 추론을 수행하는 모델을 학습시켜 제한된 컨텍스트 윈도우 내에서 복잡한 다단계 추론 작업을 지원하는 것을 목표로 합니다. 긴 체인 추론 모델링, 메모리 효율 향상 모델 학습, 효율적인 생성 등 다양한 연구 시나리오에 활용될 수 있습니다.

온라인 사용:https://go.hyper.ai/RwCkt

8. ParseBench 문서 구문 분석 기능 평가 데이터 세트

ParseBench 문서 구문 분석 성능 평가 데이터셋은 LlamaIndex 팀에서 2024년에서 2025년 사이에 공개했습니다. 이 데이터셋은 약 2,000개의 수동으로 검증 및 주석 처리된 페이지와 5개 차원에 걸쳐 169,011개의 테스트 규칙을 포함합니다. 이 페이지들은 보험, 금융, 정부 및 기타 분야의 공개 기업 문서에서 추출되었으며, PDF, 스캔 이미지, 표 및 페이지 레이아웃이 포함된 페이지 등 다양한 페이지 유형을 포함합니다. 표준화된 구문 분석 결과는 사람의 주석과 함께 제공되어 구조적 이해 및 정보 추출 측면에서 모델의 성능을 평가합니다.

온라인 사용:https://go.hyper.ai/FfFR6

9. SOHL-multidish-yolo 데이터셋은 여러 가지 재료가 들어간 인도 음식을 감지하는 데 사용됩니다.

SOHL Multi-Dish YOLO는 컴퓨터 비전 분야의 다중 객체 탐지 작업을 위한 음식 인식 데이터셋입니다. YOLOv8 어노테이션 사양을 기반으로 구축되었으며, 복잡한 장면에서 여러 개의 음식을 탐지하는 문제에 초점을 맞추고 있습니다. 이 데이터셋은 16가지 음식 카테고리를 포괄하는 377개의 어노테이션이 포함된 이미지와 해당 어노테이션으로 구성되어 있습니다. 각 이미지에는 2~6개의 음식 객체가 포함되어 있으며, 객체들이 겹쳐 있거나, 크기가 다양하거나, 복잡한 배치를 하고 있는 등의 특징을 보여줍니다.

온라인 사용:https://go.hyper.ai/u5Lng

선택된 공개 튜토리얼

1. ERNIE-Image-Turbo Raw 이미지 모델

ERNIE-Image-Turbo는 Baidu ERNIE-Image 팀에서 2026년 4월에 공개한 오픈 소스 텍스트-이미지 생성 모델입니다. ERNIE-Image-Turbo는 복잡한 명령 추적, 텍스트 렌더링, 포스터 레이아웃 생성, 구조화된 이미지 생성 및 폭넓은 스타일 지원 기능을 갖추고 있어 포스터 디자인, 일러스트레이션 제작, 인터페이스 컨셉 스케치와 같은 크리에이티브 콘텐츠 워크플로우에 적합합니다.

온라인으로 실행:https://go.hyper.ai/hmKUg

2. Qwen 3.6-27B 원클릭 배포

Qwen3.6-27B는 270억 개의 파라미터를 가진 고밀도 멀티모달 모델로, 통이첸원(Tongyi Qianwen) 팀에서 오픈소스로 공개했습니다. 이 모델은 멀티모달 사고 모드와 비사고 모드를 모두 지원하며, 에이전트 프로그래밍에서 플래그십급 성능을 달성하여 이전 오픈소스 플래그십 모델인 Qwen3.5-397B-A17B를 종합적으로 능가합니다. 고밀도 아키텍처 덕분에 MoE 라우팅 없이 배포할 수 있어, 실용적이고 광범위한 배포가 가능한 방식으로 최고 수준의 프로그래밍 기능을 원하는 개발자에게 이상적인 선택입니다.

온라인으로 실행:https://go.hyper.ai/GU9S2

3. SAM3.1: 비디오 다중 객체 추적 및 분할

SAM3.1(Segment Anything Model 3.1)은 비디오용 개방형 어휘 객체 추적 및 분할 시스템입니다. 이 모델은 객체 다중화 기술을 도입하여 효율적인 다중 객체 비디오 추적을 구현합니다.

온라인으로 실행:https://go.hyper.ai/3e5qL

4. Qwen3.6-35B-A3B: 지능형 에이전트 프로그래밍을 위한 강력한 도구입니다.

2026년 4월, Qwen 팀은 멀티모달 하이브리드 전문가(MoE) 모델인 Qwen3.6-35B-A3B를 출시했습니다. 이 모델은 총 350억 개의 파라미터를 가지고 있지만, 각 추론 과정에서는 30억 개의 파라미터만 활성화되어 높은 성능을 유지하면서 추론 비용을 크게 절감합니다.

온라인으로 실행:https://go.hyper.ai/Gc7bp

5. 신경망을 처음부터 구축하기: NumPy 튜토리얼

이 튜토리얼은 NumPy 라이브러리만을 사용하여 간단한 신경망 프레임워크를 처음부터 구축하는 방법을 안내합니다. 뉴런, 가중치, 순방향 전파, 은닉층, 활성화 함수, 손실 함수 등 핵심 개념을 포괄적으로 다룹니다. 또한 프레임워크 API를 단순히 호출하는 것을 넘어 딥러닝 모델 구축의 원리를 이해하는 데 도움을 줍니다.

온라인으로 실행:https://go.hyper.ai/OmyS0

커뮤니티 기사 해석

1. ICLR 2026 | 작업당 학습 가능 매개변수 125배 감소! 새로운 방법인 작업 토큰(Task Tokens)은 체화된 지능이 복잡한 작업 능력을 향상시키도록 돕습니다.

이스라엘 테크니온 공과대학의 연구팀이 BFM(Band Flow Model)의 유연성을 유지하면서 특정 작업에 효과적으로 적용할 수 있는 '태스크 토큰(Task Tokens)'이라는 방법을 제안했습니다. 기존의 표준 방법과 비교했을 때, 이 새로운 방법은 작업당 학습 가능한 매개변수 수를 최대 125배까지 줄이고 수렴 속도를 최대 6배까지 향상시킵니다. 연구팀은 또한 분포 이탈 시나리오를 포함한 다양한 작업에서 태스크 토큰의 효과를 검증하고 다른 큐잉 방법과의 호환성도 입증했습니다.

전체 보고서 보기:https://go.hyper.ai/vs0C6

2. 토론토 대학교를 비롯한 연구진은 추론 속도를 3배 향상시키고 유전체 학습의 계산 비용을 거의 4배 줄이는 dnaHNet을 제안했습니다.

토론토 대학교, 캐나다 벡터 인공지능 연구소, 미국 아크 연구소가 공동으로 제안한 dnaHNet 모델은 계산 효율성과 생물학적 정확성 사이의 균형을 더 잘 맞추는 새로운 접근 방식을 제시합니다.

전체 보고서 보기:https://go.hyper.ai/dRnYT

극도로 가볍지만 이미지 품질은 전혀 저하되지 않았습니다! ERNIE-Image-Turbo: 긴 대기 시간은 이제 그만, 초고속 속도를 경험하세요. 지각과 인지에 대한 이중 차원 측정 기준을 소개합니다. 알리바바의 통합 멀티모달 구문 분석 및 평가 데이터셋인 OmniParsingBench가 이제 온라인에서 이용 가능합니다.

3달 전

"ERNIE-Image-Turbo Raw Image Model"이 HyperAI 웹사이트에서 제공됩니다. 지금 바로 사용해 보세요!

온라인 사용:https://go.hyper.ai/hmKUg

더 자세한 정보를 원하시면 저희 공식 웹사이트를 방문해 주세요.

https://hyper.ai

4월 18일부터 4월 24일까지 hyper.ai 공식 웹사이트의 주요 업데이트 사항을 간략하게 살펴보겠습니다.

* 고품질 공개 데이터 세트: 9개

* 엄선된 고품질 튜토리얼: 5개

* 커뮤니티 게시글 분석: 2개 게시글

* 인기 백과사전 항목: 5개

* 4월 마감일 상위 컨퍼런스: 1

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

온라인 사용:https://go.hyper.ai/AqyDg

2.BRIGHT 재난 건물 평가 데이터 세트

온라인 사용:https://go.hyper.ai/RifVg

3. 꽃: 방글라데시 꽃 이미지 데이터 세트

온라인 사용:https://go.hyper.ai/wirun

4. MIA 다단계 추론 및 결정 궤적 데이터셋

온라인 사용:https://go.hyper.ai/XITit

5. PanScale 원격 감지 팬컬러 샤프닝 데이터 세트

온라인 사용:https://go.hyper.ai/mz2gh

6. Emotion-probes 감정 탐지 데이터셋

온라인 사용:https://go.hyper.ai/jw5FA

7. OpenMementos 컨텍스트 메모리 압축 데이터셋

온라인 사용:https://go.hyper.ai/RwCkt

8. ParseBench 문서 구문 분석 기능 평가 데이터 세트

온라인 사용:https://go.hyper.ai/FfFR6

9. SOHL-multidish-yolo 데이터셋은 여러 가지 재료가 들어간 인도 음식을 감지하는 데 사용됩니다.

온라인 사용:https://go.hyper.ai/u5Lng

선택된 공개 튜토리얼

1. ERNIE-Image-Turbo Raw 이미지 모델

온라인으로 실행:https://go.hyper.ai/hmKUg

2. Qwen 3.6-27B 원클릭 배포

온라인으로 실행:https://go.hyper.ai/GU9S2

3. SAM3.1: 비디오 다중 객체 추적 및 분할

온라인으로 실행:https://go.hyper.ai/3e5qL

4. Qwen3.6-35B-A3B: 지능형 에이전트 프로그래밍을 위한 강력한 도구입니다.

온라인으로 실행:https://go.hyper.ai/Gc7bp

5. 신경망을 처음부터 구축하기: NumPy 튜토리얼

온라인으로 실행:https://go.hyper.ai/OmyS0

커뮤니티 기사 해석

1. ICLR 2026 | 작업당 학습 가능 매개변수 125배 감소! 새로운 방법인 작업 토큰(Task Tokens)은 체화된 지능이 복잡한 작업 능력을 향상시키도록 돕습니다.

전체 보고서 보기:https://go.hyper.ai/vs0C6

2. 토론토 대학교를 비롯한 연구진은 추론 속도를 3배 향상시키고 유전체 학습의 계산 비용을 거의 4배 줄이는 dnaHNet을 제안했습니다.

전체 보고서 보기:https://go.hyper.ai/dRnYT

Command Palette

선택된 공개 데이터 세트

선택된 공개 튜토리얼

커뮤니티 기사 해석

인기 백과사전 기사

Command Palette

선택된 공개 데이터 세트

선택된 공개 튜토리얼

커뮤니티 기사 해석

인기 백과사전 기사

관련 뉴스

ICLR 2026 | 작업당 학습 가능 매개변수 125배 감소! 새로운 방법인 작업 토큰(Task Tokens)은 체화된 지능이 복잡한 작업 능력을 향상시키도록 돕습니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

Command Palette

선택된 공개 데이터 세트

선택된 공개 튜토리얼

커뮤니티 기사 해석

인기 백과사전 기사

관련 뉴스

ICLR 2026 | 작업당 학습 가능 매개변수 125배 감소! 새로운 방법인 작업 토큰(Task Tokens)은 체화된 지능이 복잡한 작업 능력을 향상시키도록 돕습니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

관련 뉴스

ICLR 2026 | 작업당 학습 가능 매개변수 125배 감소! 새로운 방법인 작업 토큰(Task Tokens)은 체화된 지능이 복잡한 작업 능력을 향상시키도록 돕습니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

관련 뉴스

ICLR 2026 | 작업당 학습 가능 매개변수 125배 감소! 새로운 방법인 작업 토큰(Task Tokens)은 체화된 지능이 복잡한 작업 능력을 향상시키도록 돕습니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

ICML 26 우수 논문: 칭화대 JustGRPO, dLLM 추론 병목 현상 극복; 단순 지시 테스트에 작별을 고하다: Agents Last Exam, 지능형 에이전트의 장기적인 전문 역량을 종합적으로 평가.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

RL+OPD를 사용하여 학습된 MiniCPM5-1B는 여러 복잡한 작업에서 최첨단(SOTA) 성능을 달성했습니다. 복잡한 의료 프로세스 자동화를 위해 설계된 의료 에이전트 평가용 CHI-Bench 데이터셋이 공개되었습니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.