HyperAIHyperAI

Command Palette

Search for a command to run...

AI 추론의 비밀 공개: OpenAI의 희소 모델, 신경망을 최초로 투명하게 공개; 칼로리 소모 예측: 정확한 에너지 데이터를 피트니스 모델에 적용

Featured Image

린자민 기자의 원문 기사 하이퍼AI2026년 1월 14일 17시 06분베이징

최근 몇 년 동안 대규모 언어 모델은 그 기능 면에서 급속한 발전을 이루었지만, 내부 의사 결정 과정은 여전히 추적하고 이해하기 어려운 복잡한 "블랙박스"로 남아 있습니다. 이러한 근본적인 문제는 의료 및 금융과 같은 고위험 분야에서 인공지능을 안정적으로 적용하는 데 심각한 걸림돌이 됩니다.모델의 사고 과정을 투명하고 추적 가능하게 만드는 방법은 여전히 해결되지 않은 중요한 과제입니다.

이를 바탕으로,OpenAI는 2025년 12월에 0.4B개의 파라미터를 가진 대규모 언어 모델인 Circuit Sparsity를 공개했습니다. 이 모델은 회로 희소성 기술을 사용하여 99.9%개의 가중치를 0으로 재설정함으로써 해석 가능한 희소 연산 아키텍처를 구축합니다.기존 트랜스포머의 "블랙박스"식 의사결정 한계를 뛰어넘어, 이 모델은 AI 추론 과정을 계층별로 분석할 수 있게 해줍니다. 핵심은 독자적인 학습 방식을 통해 기존의 밀집형 신경망을 구조화된 희소형 "회로"로 변환하는 것입니다.

*동적 강제 희소성기존 방식과 달리, 이 방법은 훈련의 모든 단계에서 "동적 가지치기"를 수행하여 각 단계에서 절댓값이 가장 큰 소수의 가중치(예: 0.1%)만 유지하고 나머지는 0으로 설정함으로써 모델이 처음부터 최소한의 연결성으로 작동하도록 학습하게 합니다.

*희소성 활성화주의 메커니즘과 같은 핵심 위치에 활성화 함수를 도입함으로써 뉴런의 출력은 "양자택일"이라는 이산적인 상태로 수렴하는 경향이 있으며, 이로써 희소 네트워크에서 명확한 정보 채널이 형성됩니다.

*맞춤형 부품희소성 파괴를 방지하기 위해 LayerNorm 대신 RMSnorm을 사용하고, 간단한 단어 예측을 처리하기 위해 바이그램 조회 테이블을 도입하여 메인 네트워크가 복잡한 논리에 더욱 집중할 수 있도록 했습니다.

위에서 설명한 방법을 사용하여 학습된 모델은 기능적으로 정의되고 분해 가능한 "회로"를 자발적으로 형성합니다. 각 회로는 특정 하위 작업을 담당합니다. 연구자들은 일부 뉴런이 "작은따옴표"를 감지하는 데 특화되어 사용되고, 다른 뉴런은 논리 "카운터" 역할을 한다는 것을 명확하게 식별할 수 있습니다. 기존의 밀집 모델과 비교했을 때, 동일한 작업을 완료하는 데 필요한 활성 노드의 수가 크게 줄어듭니다.함께 제공되는 "브리지 네트워크" 기술은 희소 회로에서 얻은 해석을 GPT-4와 같은 고성능 밀집 모델에 다시 매핑하려고 시도하며, 기존의 대규모 모델을 분석하는 잠재적인 도구도 제공합니다.

HyperAI 웹사이트에 "Circuit Sparsity: OpenAI의 새로운 오픈 소스 희소 모델"이 추가되었으니 한번 사용해 보세요!

온라인 사용:https://go.hyper.ai/WgLQc

1월 5일부터 1월 9일까지 hyper.ai 공식 웹사이트의 주요 업데이트 사항을 간략하게 살펴보겠습니다.

* 고품질 공개 데이터 세트: 8개

* 엄선된 고품질 튜토리얼: 4개

* 이번 주 추천 논문 : 5

* 커뮤니티 기사 해석 : 5개 기사

* 인기 백과사전 항목: 5개

* 1월에 마감일이 있는 주요 컨퍼런스: 9개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. MCIF 다중 모드 교차 언어 교육 데이터 세트

MCIF는 과학 강연을 기반으로 하는 다국어, 다중 모달, 수동 주석 평가 데이터 세트로, 2025년 브루노 케슬러 재단이 카를스루에 공과대학교 및 Translated와 협력하여 공개했습니다. 이 데이터 세트는 다중 모달 대규모 언어 모델이 다양한 언어 환경에서 지시 사항을 이해하고 실행하는 능력과 음성, 시각 및 텍스트 정보를 통합하여 추론하는 능력을 평가하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/SyUiL

2. TxT360-3efforts 멀티태스킹 추론 데이터셋

TxT360-3efforts는 2025년 모하메드 빈 자예드 인공지능 대학교에서 공개한 지도 미세 조정(SFT)을 위한 대규모 언어 모델 학습 데이터셋입니다. 이 데이터셋은 채팅 템플릿을 통해 모델의 세 가지 추론 강도를 제어하도록 설계되었습니다.

직접 사용:https://go.hyper.ai/fMEbf

3. X선 밀수품 탐지 데이터 세트

X선 밀수품 탐지 데이터셋은 2025년 남중국사범대학교가 홍콩공과대학교 및 서스캐처원대학교와 협력하여 공개한 데이터셋입니다. 이 데이터셋은 복잡하고 밀집된 보안 영상에서 탐지 모델의 탐지 능력을 향상시키고, 특히 클래스 불균형 및 샘플 부족과 같은 실제 문제를 해결하기 위해 설계되었습니다.

직접 사용:https://go.hyper.ai/ppXub

4. MCD-rPPG 다중 카메라 원격 광혈량측정 데이터 세트

MCD-rPPG는 Sber AI Lab에서 2025년에 공개한 멀티 카메라 비디오 데이터셋입니다. 이 데이터셋은 서로 다른 상태에 있는 600명의 피험자가 촬영한 동기화된 비디오와 생체 신호 데이터로 구성되어 있으며, 원격 광혈량측정(rPPG) 및 건강 바이오마커 추정을 수행하도록 설계되었습니다.

직접 사용:https://go.hyper.ai/6KY40

5. LongBench-Pro 장기 컨텍스트 종합 평가 데이터 세트

LongBench-Pro는 장문 문맥 언어 모델 평가를 위한 데이터셋으로, 다양한 문맥 길이, 작업 유형 및 런타임 조건에서 모델이 장문 텍스트를 이해하고 처리하는 능력을 체계적으로 평가하도록 설계되었습니다.

직접 사용:https://go.hyper.ai/7esQI

6. 사람 얼굴 데이터셋

Human Faces는 얼굴 관련 컴퓨터 비전 작업을 위해 2025년에 공개된 데이터셋입니다. 이 데이터셋은 얼굴 인식, 얼굴 탐지, 표정 분석 및 생성 모델링과 같은 응용 분야에 고품질의 잘 구조화된 이미지 데이터를 제공하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/9WlDl

데이터 세트 예제

7. 칼로리 소모 예측 데이터 세트

칼로리 소모 예측은 운동 에너지 소비량을 예측하기 위한 지도 학습 데이터셋입니다. 이 데이터셋은 개인의 생리적 특성과 운동 상태 정보를 활용하여 운동 중 소모되는 칼로리 양을 예측하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/o6X59

8MapTrace 경로 추적 데이터 세트

MapTrace는 구글이 펜실베이니아 대학교와 협력하여 2025년에 공개한 대규모 합성 지도 경로 추적 데이터셋입니다. 이 데이터셋은 지도 장면에서 멀티모달 대규모 언어 모델(MLLM)의 세밀한 공간 추론 및 경로 계획 기능을 향상시키는 것을 목표로 합니다. 핵심 목표는 출발지에서 목적지까지 픽셀 단위로 정확하고, 연속적이며, 실제로 걸을 수 있는 경로를 생성하도록 모델을 학습시키는 것입니다.

직접 사용:https://go.hyper.ai/BGHUu

선택된 공개 튜토리얼

1. 회로 희소성: OpenAI의 새로운 오픈 소스 희소 모델

Circuit-sparsity는 OpenAI에서 공개한 0.4B 파라미터 규모의 대형 언어 모델입니다. 이 모델은 회로 희소성 기술을 활용하여 99.9%개의 가중치를 0으로 재설정함으로써 해석 가능한 희소 연산 아키텍처를 구축합니다. 이는 기존 트랜스포머 모델의 "블랙박스"식 의사 결정 한계를 극복하여 AI 추론을 계층별로 분석할 수 있게 합니다. 모델과 함께 공개된 Streamlit 툴킷은 "활성화 브리지" 기술을 제공하여 연구자들이 내부 신호 경로를 추적하고 해당 회로를 분석하며 희소 모델과 밀집 모델 간의 성능 차이를 비교할 수 있도록 합니다.

온라인으로 실행:https://go.hyper.ai/zui8w

데모 페이지

2. HY-MT1.5-1.8B: 다국어 신경망 기계 번역 모델

HY-MT1.5-1.8B는 텐센트의 훈위안 팀에서 출시한 18억 개의 파라미터를 가진 다국어 기계 번역 모델입니다. 통합 트랜스포머 아키텍처를 기반으로 33개 언어와 5개 소수민족 언어/방언 간의 상호 번역을 지원하며, 혼합 언어 및 전문 용어 관리와 같은 실제 시나리오에 최적화되어 있습니다. 7B 모델에 버금가는 번역 품질을 제공하면서도 파라미터 수는 3분의 1에 불과하고, 대량 배포 및 허깅페이스(HuggingFace) 생태계와의 통합을 지원하여 효율적이고 저렴한 온라인 다국어 번역 서비스에 적합합니다.

온라인으로 실행:https://go.hyper.ai/I0pdR

데모 페이지

3. AWPortrait-Z 초상화 아트 LoRA

AWPortrait-Z는 LoRA 기술을 기반으로 하는 인물 사진 향상 모델입니다. 플러그인 형태로 제공되어 기존의 텍스트 기반 이미지 확산 모델과 통합되며, 기본 모델을 재학습할 필요 없이 생성된 인물 사진의 사실감과 사진 품질을 크게 향상시킵니다. 이 모델은 얼굴 구조, 피부 질감, 조명 렌더링을 최적화하여 더욱 자연스럽고 정교한 효과를 구현하며, 사진과 같은 사실감이 요구되는 인물 사진 제작 및 이미지 합성 작업에 적합합니다.

온라인으로 실행:https://go.hyper.ai/wRjIp

데모 페이지

4. Granite-4.0-h-small: 다국어 대화 및 코딩 작업을 위한 올인원 플랫폼.

Granite-4.0-h-small은 IBM에서 출시한 32억 개의 파라미터를 가진 컨텍스트 명령어 미세 조정 모델입니다. 이 모델은 기본 모델을 기반으로 하며, 오픈 소스 및 합성 데이터를 통합하고, 지도 학습 기반 미세 조정, 강화 학습 정렬 및 모델 병합 기술을 활용합니다. 뛰어난 명령어 호환성과 도구 호출 기능을 자랑하며, 구조화된 대화 형식을 사용하고, 고효율 엔터프라이즈급 애플리케이션에 최적화되어 있습니다.

온라인으로 실행:https://go.hyper.ai/1HhB9

데모 페이지

이번 주 논문 추천

1. mHC: 매니폴드 제약 하이퍼커넥션

본 논문에서는 하이퍼커넥션(HC)의 잔여 연결 공간을 특정 매니폴드에 투영함으로써 HC의 항등 사상 속성을 복원하는 동시에 엄격한 인프라 최적화를 통해 계산 효율성을 보장하는 일반 프레임워크인 매니폴드 제약 하이퍼커넥션(mHC)을 제안합니다. 실험 결과는 mHC가 대규모 학습에서 탁월한 성능을 보이며, 실질적인 성능 향상뿐만 아니라 뛰어난 확장성까지 제공함을 보여줍니다. 유연하고 실용적인 HC의 확장으로서 mHC는 토폴로지 설계에 대한 심층적인 이해에 기여하고 기본 모델의 발전을 위한 유망한 새로운 방향을 제시할 것으로 기대합니다.

논문 링크:https://go.hyper.ai/ZePnH

2. Youtu-LLM: 경량 대규모 언어 모델에서 네이티브 지능형 에이전트의 잠재력 발휘

저자들은 Youtu-LLM 팀이 개발한 19억 6천만 개의 파라미터를 가진 경량 언어 모델인 Youtu-LLM을 제안합니다. "상식-STEM-에이전트" 원칙 커리큘럼을 사용하여 처음부터 사전 학습함으로써, 20억 개 미만의 파라미터를 가진 모델 중 최첨단 성능을 달성합니다. 이 모델은 간결한 다중 지연 시간 어텐션 아키텍처, STEM 중심 토크나이저, 그리고 확장 가능한 파이프라인을 통합하여 수학, 프로그래밍, 심층 연구, 도구 사용과 같은 분야에서 고품질 에이전트 궤적 데이터를 생성합니다. 이를 통해 모델은 기본적인 계획, 숙고 및 행동 기능을 내재화하여, 강력한 일반 추론 및 장기적인 맥락 처리 능력을 유지하면서 에이전트 벤치마크에서 더 큰 모델들을 크게 능가합니다.

논문 링크:https://go.hyper.ai/gitUc

3. Youtu-LLM: 경량 대규모 언어 모델에서 네이티브 지능형 에이전트의 잠재력 발휘

본 논문은 먼저 인지 신경과학에서 대규모 언어 모델, 그리고 지능형 에이전트에 이르기까지 메모리의 진화를 추적하며 메모리의 정의와 기능을 명확히 합니다. 이어서 생물학적 관점과 인공적 관점에서 메모리의 분류 체계, 저장 메커니즘, 그리고 전체 관리 생명주기를 비교 분석합니다. 이러한 분석을 바탕으로 현재 널리 사용되는 지능형 에이전트 메모리 평가 벤치마크들을 체계적으로 검토합니다. 나아가 공격 및 방어 관점에서 메모리 시스템의 보안 문제를 탐구합니다. 마지막으로, 다중 모달 메모리 시스템 구축과 스킬 습득 메커니즘에 초점을 맞춰 향후 연구 방향을 제시합니다.

논문 링크:https://go.hyper.ai/01H6H

4. 사고의 흐름을 자유롭게: 록 음악 맥락에서 지능형 에이전트 구축 및 개방형 지능형 에이전트 학습 생태계 내에서 ROME 모델 개발.

저자들은 유전 알고리즘 기반 학습 생태계(ALE)를 활용한 오픈 소스 에이전트 모델인 ROME을 제안합니다. 이 프레임워크는 ROCK의 샌드박스 오케스트레이션, ROLL의 학습 후 최적화, 그리고 iFlow CLI의 컨텍스트 인식 에이전트 실행 기능을 통합합니다. 새로운 정책 최적화 알고리즘(IPA)을 통해 의미론적 상호작용 블록에 크레딧을 할당함으로써 Terminal-Bench 2.0 및 SWE-bench Verified에서 최첨단 성능을 달성하며, 실제 배포를 지원하여 확장 가능하고 안전하며 프로덕션 환경에 바로 적용 가능한 에이전트 워크플로우를 구축할 수 있도록 합니다.

논문 링크:https://go.hyper.ai/UaAXZ

5. iQuest-Coder-V1 기술 보고서

본 논문에서는 새로운 대규모 언어 모델(LLM) 제품군인 IQuest-Coder-V1 시리즈(7B/14B/40B/40B-Loop)를 제안합니다. 기존의 정적 코드 표현 방식과 달리, 본 논문에서는 코드 흐름 기반의 다단계 학습 패러다임을 제안하여 파이프라인의 각 단계에서 소프트웨어 로직의 진화를 동적으로 포착합니다. 이 모델은 진화적 학습 파이프라인을 통해 구축됩니다. IQuest-Coder-V1 시리즈의 출시로 자율 코드 지능 및 실제 지능형 에이전트 시스템 분야의 연구가 크게 진전될 것으로 기대됩니다.

논문 링크:https://go.hyper.ai/DBYN7

더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ

커뮤니티 기사 해석

1. NVIDIA를 비롯한 여러 기업은 18,000년 치의 기후 데이터를 생성하여 장거리 증류법을 제안했고, 이를 통해 단 한 단계의 계산만으로 장기적인 날씨 예측이 가능해졌습니다.

NVIDIA 연구소와 워싱턴 대학교의 공동 연구팀이 장기 예측을 위한 새로운 방법을 개발했습니다. 핵심 아이디어는 현실적인 대기 변동성을 생성하는 데 능숙한 자기회귀 모델을 "교사"로 활용하여 저비용의 신속한 시뮬레이션을 통해 대량의 합성 기상 데이터를 생성하는 것입니다. 이렇게 생성된 데이터는 확률론적 "학생" 모델을 학습하는 데 사용됩니다. 학생 모델은 단일 단계 계산으로 장기 예측을 생성하여 반복적인 오류 누적을 방지하고 복잡한 데이터 보정 문제를 해결합니다. 예비 실험 결과, 이러한 방식으로 학습된 학생 모델은 S2S 예측에서 ECMWF 통합 예측 시스템과 유사한 성능을 보였으며, 합성 데이터 양이 증가함에 따라 성능이 지속적으로 향상되어 향후 더욱 신뢰할 수 있고 경제적인 기후 규모 예측을 제공할 것으로 기대됩니다.

전체 보고서 보기:https://go.hyper.ai/Ljebq

2. 젠슨 황의 최근 연설: 5가지 혁신, 루빈 성능 데이터 최초 공개; 에이전트/로봇/자율주행/AI4S를 아우르는 다양한 오픈 소스

새해를 맞아 '기술 춘절 축제'로 불리는 CES 2026(소비자 가전 전시회)이 미국 라스베이거스에서 개막했습니다. 젠슨 황 NVIDIA CEO는 공식 CES 기조연설자 명단에는 없었지만, 다양한 행사에 참석하며 바쁜 일정을 소화했습니다. 특히 NVIDIA LIVE에서의 개인 발표가 주목할 만했습니다. 특유의 검은색 가죽 재킷을 입은 황 CEO는 최근 마무리된 발표에서 5가지 혁신 기술이 탑재된 루빈 플랫폼을 소개하고, 여러 오픈소스 성과를 공개했습니다. 구체적으로는 에이전트형 AI를 위한 NVIDIA 네모트론 시리즈, 물리 AI를 위한 NVIDIA 코스모스 플랫폼, 자율주행 연구를 위한 NVIDIA 알파마요 시리즈, 로봇 공학을 위한 NVIDIA 아이작 GR00T, 그리고 생물의학 분야를 위한 NVIDIA 클라라를 발표했습니다.

전체 보고서 보기:https://go.hyper.ai/YMK1J

3. 베조스, 빌 게이츠, 엔비디아, 인텔 등 여러 기업이 투자에 나섰습니다. NASA 엔지니어들이 범용 로봇 두뇌 개발팀을 이끌고 있으며, 이 회사의 기업 가치는 20억 달러로 평가받고 있습니다.

인터넷, 이미지 라이브러리, 방대한 양의 텍스트를 활용하여 대형 모델을 "무한히 확장"할 수 있는 반면, 로봇은 현실 세계의 데이터라는 전혀 다른 세계에 갇혀 있습니다. 현실 세계의 데이터는 극히 부족하고, 비싸며, 재사용이 불가능합니다. 데이터 규모의 제약과 물리적 세계의 제한된 구조라는 한계를 극복하기 위해 FieldAI는 주류의 인지 우선 전략과는 다른 접근 방식을 택했습니다. 물리적 제약을 중심으로 설계된 범용 로봇 지능 시스템을 처음부터 구축하여 현실 환경에서 로봇의 일반화 능력과 자율성을 향상시키는 것을 목표로 합니다.

전체 보고서 보기:https://go.hyper.ai/9T1rE

4. 전체 다시보기 | 상하이 창즈/타일AI/화웨이/고급 컴파일러 연구소/AI9Stars의 AI 컴파일러 기술 실습 심층 분석

AI 컴파일러 기술이 끊임없이 발전하는 가운데, 수많은 연구가 진행되고 있으며, 축적된 통찰력과 기술 발전이 융합되고 있습니다. 이러한 배경 속에서 제8회 AI 컴파일러 미팅이 12월 27일에 개최되었습니다. 이번 미팅에는 상하이 혁신 아카데미, 타일AI 커뮤니티, 화웨이 하이실리콘, 어드밴스드 컴파일러 랩, AI9스타즈의 전문가 5명이 초청되어 소프트웨어 스택 설계 및 연산자 개발부터 성능 최적화에 이르기까지 기술 전반에 걸친 통찰력을 공유했습니다. 발표자들은 각 팀의 오랜 연구 경험을 바탕으로 실제 시나리오에서 다양한 기술적 접근 방식의 구현 방법과 장단점을 시연하며, 추상적인 개념에 구체적인 토대를 제공했습니다.

전체 보고서 보기:https://go.hyper.ai/8ytqF

5. 고도로 선택적인 기질 설계 구현: MIT와 하버드 연구진, 생성형 AI를 활용하여 새로운 프로테아제 절단 패턴 발견.

MIT와 하버드 대학교는 인공지능 기반의 엔드투엔드 설계 프로세스인 CleaveNet을 공동으로 제안했습니다. CleaveNet은 예측 및 생성 모델과 결합하여 기존의 프로테아제 기질 설계 패러다임을 혁신하고 관련 기초 연구 및 생의학 개발에 완전히 새로운 솔루션을 제공하는 것을 목표로 합니다.

전체 보고서 보기:https://go.hyper.ai/tcYYZ

인기 백과사전 기사

1. 인간-기계 루프(HITL)

2. 초상호 정렬 융합 RRF

3. 구현된 내비게이션

4. 다층 퍼셉트론

5. 보강재 미세 조정

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

https://go.hyper.ai/wiki

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!

AI 추론의 비밀 공개: OpenAI의 희소 모델, 신경망을 최초로 투명하게 공개; 칼로리 소모 예측: 정확한 에너지 데이터를 피트니스 모델에 적용 | 뉴스 | HyperAI초신경