NeurIPS 2025 최우수 논문상이 발표되었습니다! Qwen 팀, 칭화대학교, 스탠퍼드대학교 등의 협력 연구 프로젝트가 선정되었습니다.

8달 전

정보

LLM

NeurIPS 2025 최우수 논문상과 준우승 논문상은 4편의 최우수 논문(그중 하나는 데이터 세트 및 벤치마크 도메인에서 나온 것)과 3편의 준우승 논문을 포함하여 7편의 획기적인 논문에 수여되었습니다.

이 7개 논문은 확산 모델 이론, 자기 감독 강화 학습, 대규모 언어 모델의 주의 메커니즘, 언어 모델의 추론 능력, 온라인 학습 이론, 신경 확장 법칙, 언어 모델 다양성을 위한 벤치마킹 방법 분야의 최신 발전 사항을 강조합니다.

4가지 최고의 논문

1. 인공지능 크라우드소싱: 언어 모델(및 그 확장)의 개방적 동질성

제목: 인공 하이브마인드: 언어 모델의 개방형 동질성(그리고 그 이상)

* 연구팀:워싱턴 대학교, 카네기 멜론 대학교, 앨런 인공지능 연구소, 릴라 사이언스, 스탠포드 대학교

* 추상적인:대규모 언어 모델(LM)은 다양하고 인간과 유사한 창의적 콘텐츠를 생성하는 데 어려움을 겪는 경우가 많으며, 이는 유사한 출력에 반복적으로 노출됨으로써 인간 사고가 장기적으로 동질화될 수 있다는 우려를 불러일으킵니다. 그러나 언어 모델 출력의 다양성을 평가하는 현재의 확장 가능한 방법은 여전히 제한적이며, 특히 난수 생성이나 이름 생성과 같은 특정 작업이나 단일 모델의 반복 샘플링을 넘어서는 경우에는 더욱 그렇습니다.

이러한 단점을 해결하기 위해, 저희는 26,000개의 다양하고 실제적인 개방형 사용자 질의를 포함하는 방대한 데이터 세트인 Infinity-Chat을 소개합니다. 이 데이터 세트는 하나의 "정답"이 아닌 여러 개의 타당한 답변을 허용합니다. 또한, 언어 모델에 제시된 모든 개방형 프롬프트를 설명하는 포괄적인 분류 시스템을 최초로 제시합니다. 이 시스템은 6개의 최상위 범주(예: 창의적 콘텐츠 생성, 브레인스토밍, 아이디어 창출)로 구성되며, 각 범주는 17개의 하위 범주로 세분화됩니다.

Infinity-Chat 플랫폼을 사용하여 언어 모델(LM)의 패턴 붕괴에 대한 대규모 연구를 수행한 결과, 개방형 언어 모델 생성 시 유의미한 "인공적 하이브 멘탈리티" 효과가 있음을 확인했습니다. 이 효과는 다음과 같이 나타납니다. (1) 모델 내 반복성, 즉 개별 모델이 지속적으로 유사한 응답을 생성합니다. (2) 모델 간 동질성, 즉 서로 다른 모델이 놀라울 정도로 유사한 출력을 생성합니다. Infinity-Chat 플랫폼은 또한 절대 평가 및 쌍별 선호도를 포함하는 31,250개의 인간 주석을 포함하고 있으며, 각 예시에는 25개의 독립적인 인간 주석이 있습니다. 이를 통해 개방형 질의에 대한 집단적 및 개인적 인간 선호도를 연구할 수 있었습니다. 연구 결과에 따르면, 전반적인 품질은 상당히 유지되었지만, 최첨단 언어 모델, 보상 모델 및 언어 모델 평가자는 서로 다른 주석 작성자로부터 개인화된 선호도를 이끌어내는 모델 생성에 있어 인간 평가와의 일치도가 낮았습니다. 전반적으로 INFINITY-CHAT은 실제 세계의 언어 모델에 대한 개방형 질의를 체계적으로 연구하기 위한 최초의 대규모 리소스를 제공하며, 향후 연구를 안내하고 AI 무리적 사고방식으로 인한 장기적인 AI 안전 위험을 완화하기 위한 주요 통찰력을 제공합니다.

* 논문 링크:https://go.hyper.ai/DZga5

2. 대규모 언어 모델에 대한 게이트 주의 메커니즘의 적용: 비선형성, 희소성 및 무인 수렴

제목: 대규모 언어 모델을 위한 게이트된 주의: 비선형성, 희소성 및 주의 싱크 없음

* 연구팀:Alibaba Qwen 팀, 에든버러 대학교, 스탠포드 대학교, 매사추세츠 공과대학교, 칭화 대학교

* 추상적인:게이팅 메커니즘은 LSTM 및 Highway Networks와 같은 초기 모델부터 최근의 상태 공간 모델, 선형 어텐션 메커니즘, 소프트맥스 어텐션 메커니즘에 이르기까지 널리 적용되어 왔습니다. 그러나 기존 문헌에서는 게이팅 메커니즘의 구체적인 효과를 연구한 사례가 거의 없습니다. 본 논문에서는 일련의 포괄적인 실험을 통해 게이팅 강화 소프트맥스 어텐션 메커니즘 변형을 체계적으로 조사합니다. 구체적으로, 3.5조 개의 토큰 데이터셋을 사용하여 학습된 150억 개의 하이브리드 전문가(MoE) 모델과 17억 개의 밀집 모델을 포함한 30개의 변형을 종합적으로 비교합니다. 연구의 주요 결과는 스케일링된 내적 어텐션(SDPA) 이후에 헤드 특정 시그모이드 게이팅을 적용하는 간단한 개선만으로도 모델 성능을 지속적으로 향상시킬 수 있다는 것입니다. 또한, 이러한 개선은 학습 안정성을 향상시키고, 모델의 학습률 내성을 높이며, 모델 확장성을 향상시킵니다. 다양한 게이팅 위치와 계산 변형을 비교함으로써, 이러한 효과의 원인을 두 가지 핵심 요인으로 규명했습니다. (1) 소프트맥스 어텐션 메커니즘의 저랭크 매핑에 비선형성을 도입한 것, (2) SDPA 출력을 조절하기 위해 쿼리 관련 희소 게이팅 점수를 적용한 것입니다. 특히, 이 희소 게이팅 메커니즘은 대규모 활성화와 어텐션 트랩을 완화하고 장기 맥락 외삽 성능을 향상시킨다는 것을 발견했습니다. 또한, 향후 연구를 지원하기 위해 관련 코드와 모델을 공개합니다. 또한, 가장 효율적인 SDPA 출력 게이팅이 Qwen3-Next 모델에 적용되었습니다.

* 서류 주소:https://go.hyper.ai/iBANK

* Github 주소:https://github.com/qiuzh20/gated_attention

3. 자기 감독 강화 학습에서 다층 네트워크의 적용: 심층 확장을 통해 새로운 목표에 이를 달성할 수 있는 능력을 부여할 수 있습니다.

자기 감독 RL을 위한 1000개 계층 네트워크: 심도 확장을 통해 새로운 목표 달성 기능 구현 가능

* 연구팀:프린스턴 대학교, 바르샤바 공과대학교

* 추상적인:자기 지도 학습은 언어 및 시각의 대규모 응용 분야에서 획기적인 진전을 이루었지만, 강화 학습(RL) 분야에서는 이와 유사한 진전이 드물었습니다. 본 논문에서는 네트워크 깊이를 핵심 요소로 삼아 확장성을 크게 향상시키는 자기 지도 강화 학습의 구성 요소를 연구합니다. 대부분의 최근 강화 학습 논문은 얕은 아키텍처(약 2~5개 층)에 의존하지만, 본 연구에서는 깊이를 1024개 층으로 늘리면 성능이 크게 향상됨을 보여줍니다. 본 실험은 비지도 목표 조건화 환경에서 수행되었으며, 어떠한 시연이나 보상도 제공되지 않았습니다. 따라서 에이전트는 목표 달성 확률을 극대화하는 방법을 처음부터 탐색하고 학습해야 합니다. 시뮬레이션된 동작 및 조작 과제에 대한 평가 결과, 본 연구에서 제안하는 방법은 자기 지도 비교 강화 학습 알고리즘보다 ±배 높은 성능 향상을 달성하여 다른 목표 조건화 기준 방법보다 우수한 성능을 보였습니다. 모델 깊이를 늘리면 성공률이 향상될 뿐만 아니라 학습된 행동도 근본적으로 변화합니다.

* 서류 주소:https://go.hyper.ai/HR0Hx

4. 확산 모델이 암기에 의존하지 않는 이유: 학습에서 암묵적 동적 정규화의 역할.

확산 모델이 기억하지 못하는 이유: 학습에서 암묵적 동적 정규화의 역할

* 연구팀:Paris Sciences et Lafayette University(Université PSL) 및 Bocconi University

* 초록 배포:이 모델은 다양한 생성 작업에서 상당한 성공을 거두었습니다. 핵심 과제는 훈련 데이터 기억을 피하고 일반화를 달성하는 메커니즘을 이해하는 것입니다. 본 연구는 일반화에서 기억으로의 전환에서 훈련 역학의 역할을 탐구합니다. 광범위한 실험과 이론적 분석을 통해 모델이 고품질 샘플을 생성하기 시작하는 초기 단계와 기억화가 발생하는 후기 단계의 두 가지 뚜렷한 시간 척도를 식별했습니다. 중요한 발견은 초기 단계는 훈련 세트 크기에 따라 선형적으로 증가하는 반면 후기 단계는 일정하게 유지된다는 것입니다. 이는 점근적 훈련 시간 구간을 형성합니다. 이 구간 동안 모델은 효과적으로 일반화되지만, 훈련이 후기 단계로 계속될 경우 강력한 기억화가 발생합니다. 과적합은 이 시간 척도가 모델별 임계값을 초과할 때만 무한 훈련 시간 동안 사라집니다. 이러한 결과는 매우 과매개변수화된 설정에서도 기억화를 방지하는 훈련 역학의 암묵적인 동적 정규화 메커니즘을 보여줍니다. 우리의 결론은 표준 U-Net 아키텍처를 사용하여 실제 및 합성 데이터 세트에 대한 수치 실험을 통해 검증되었으며, 고차원 한계에서 다루기 쉬운 확률적 특징 모델에 대한 이론적 분석을 통해 뒷받침되었습니다.

* 서류 주소:https://go.hyper.ai/UloDv

준우승

1. 강화 학습은 논리 학습 모델이 기본 모델을 넘어 추론 능력을 향상시키도록 실제로 인센티브를 제공할 수 있습니까?

제목: 강화 학습은 실제로 기본 모델을 넘어 LLM의 추론 능력을 향상시키는가?

* 팀:칭화대학교 리프랩 연구실, 상하이 교통대학교

* 추상적인:최근 몇 년 동안 검증 가능한 보상 기반 강화 학습(RLVR)은 특히 수학 및 프로그래밍 작업에서 대규모 언어 모델(LLM)의 추론 성능 향상에 상당한 성과를 거두었습니다. 전통적인 강화 학습이 에이전트가 새로운 전략을 탐색하고 학습하도록 돕는 방식과 유사하게, RLVR은 LLM이 스스로를 지속적으로 향상시켜 기본 모델을 능가하는 새로운 추론 능력을 습득할 수 있도록 돕는 것으로 알려져 있습니다. 본 연구는 다양한 모델군, 강화 학습 알고리즘, 그리고 수학/프로그래밍/시각적 추론 벤치마크를 통해 RLVR로 훈련된 LLM의 추론 능력 경계를 체계적으로 탐구하고, RLVR의 현재 상태에 대한 심층 분석을 제공합니다.

우리는 큰 k 값에 대해 pass@k 메트릭을 평가 메트릭으로 사용합니다.우리의 연구에 따르면 RLVR은 올바른 경로에 대한 샘플링 효율을 향상시키지만 놀랍게도 현재 훈련 방법은 근본적으로 새로운 추론 패턴을 생성하지 못합니다.RLVR로 훈련된 모델이 더 작은 값(예: =1)에서 기본 모델보다 성능이 뛰어나지만 기본 모델은 더 큰 값에서 더 높은 pass@k 점수를 갖는 것을 관찰했습니다.또한 LLM의 추론 능력 경계는 일반적으로 RLVR 훈련이 진행됨에 따라 줄어드는 것을 관찰했습니다.추가 커버리지 및 퍼플렉시티 분석은 RLVR 모델에서 생성된 추론 경로가 이미 기본 모델의 샘플링 분포에 포함되어 있음을 나타내므로 추론 능력이 기본 모델에서 파생되고 제한됨을 시사합니다.이러한 관점에서 기본 모델을 상한으로 고려할 때, 우리의 정량적 분석은 6가지 인기 있는 RLVR 알고리즘의 성능이 비슷하며 기본 모델의 잠재력을 완전히 활용하는 최적 수준에 도달하지 못했음을 보여줍니다.

이와 대조적으로, 증류는 교사 모델로부터 새로운 추론 패턴을 도입하고 모델의 추론 능력을 진정으로 확장할 수 있음을 발견했습니다. 요약하자면, 본 연구 결과는 현재의 RLVR 방법이 LLM에서 진정으로 새로운 추론 능력을 고취하는 강화 학습의 잠재력을 충분히 실현하지 못했음을 보여줍니다. 이는 이러한 잠재력을 최대한 발휘하기 위해 연속 확장 및 다중 턴 에이전트-환경 상호작용과 같은 강화 학습 패러다임을 개선해야 할 필요성을 강조합니다.

* 서류 주소:https://go.hyper.ai/fwkSX

2. 직접 푸시 온라인 학습을 위한 최적 오류 경계

제목: 전환적 온라인 학습을 위한 최적 실수 경계

* 팀:켄트 주립대학교, 퍼듀대학교, 구글 리서치, MIT

* 요약:우리는 온라인 학습에서 레이블이 지정되지 않은 데이터의 역할에 관한 30년 된 미해결 문제를 다룹니다. 이를 위해 전환적 온라인 학습과 표준 온라인 학습 간의 차이를 정확하게 정량화합니다. 차원 n의 모든 Littlestone 개념 클래스에 대해 전환적 오차 한계가 최소 n 이상임을 보여줍니다. 이는 Ben-David, Kushilevitz, Mansour(1995, 1997)와 Hanneke, Moran, Shafer(2023)가 각각 제시한 이전 하한값 n1, n2, n3보다 기하급수적으로 향상되었습니다. 또한, 우리의 한계가 엄격함을 보여줍니다. 모든 n에 대해 전환적 오차 한계가 n1인 차원 n의 Littlestone 개념 클래스가 존재합니다. 우리의 상한값은 Ben-David 외(1997)가 제시한 기존에 알려진 최적의 상한값보다 향상되었습니다. 이러한 결과는 전환적 온라인 학습과 표준 온라인 학습 사이에 2차 격차가 존재함을 보여주며, 레이블이 지정되지 않은 인스턴스 시퀀스에 대한 조기 접근의 이점을 강조합니다. 이는 전환적 학습과 표준 학습이 유사한 샘플 복잡도를 보이는 PAC 설정과는 극명한 대조를 이룹니다.

* 서류 주소:https://go.hyper.ai/00rHz

3. 중첩 구조는 신경망에 강력한 확장성을 제공합니다.

제목: 중첩을 통한 강력한 신경 스케일링

* 팀:매사추세츠 공과대학교

* 요약:오늘날 대규모 언어 모델(LLM)의 성공은 더 큰 모델이 더 나은 성능을 보인다는 관찰에 달려 있습니다. 그러나 손실이 모델 크기에 따라 전력 법칙적으로 감소하는 이 신경 스케일링 법칙의 기원은 아직 불분명합니다. 본 연구에서는 표현 스태킹(즉, LLM이 표현하는 특징의 수가 차원을 초과하는 현상)이 손실의 핵심 요인일 수 있으며, 이로 인해 신경 스케일링이 발생한다고 제안합니다. Anthropic의 토이 모델을 기반으로, 가중치 감소를 사용하여 스태킹 정도를 제어함으로써 손실이 모델 크기에 따라 어떻게 확장되는지 체계적으로 조사합니다. 스태킹이 약할 때, 데이터 특징의 빈도가 전력 법칙 분포를 따르는 경우에만 손실이 전력 법칙을 따릅니다. 반대로, 강한 스태킹의 경우, 표현 벡터 간의 기하학적 중첩으로 인해 손실은 일반적으로 넓은 빈도 분포에 걸쳐 모델 차원에 반비례합니다. 본 연구에서는 강한 스태킹 환경에서 작동하는 오픈 소스 LLM이 손실과 모델 차원 간에 반비례 관계를 보이며, Chinchilla의 스케일링 법칙이 이와 일치함을 보여줍니다. 우리의 연구 결과는 표현 스태킹이 신경 확장의 핵심 동인임을 시사하며, 신경 확장을 개선할 수 있는 경우와 실패하는 경우와 같은 질문에 대한 통찰력을 제공합니다.

* 서류 주소:https://go.hyper.ai/AyLWt

최첨단 AI 논문에 대해 더 알고 싶다면,
환영합니다:https://hyper.ai/papers

NeurIPS 2025 최우수 논문상이 발표되었습니다! Qwen 팀, 칭화대학교, 스탠퍼드대학교 등의 협력 연구 프로젝트가 선정되었습니다.

8달 전