AI 주간 보고서: 재귀적 추론 방법, 경량 디코더 아키텍처, 딥 컨볼루션 신경망 아키텍처 등 - 다양한 분야의 최첨단 개발 살펴보기

언어 기반 에이전트의 장기적인 목표는 경험을 통해 지속적으로 학습하고 최적화하여 궁극적으로 복잡한 실제 작업에서 인간의 성과를 능가하는 것입니다. 그러나 경험적 데이터에만 기반한 강화 학습을 사용하여 에이전트를 훈련하는 것은 검증 가능한 보상 신호가 부족한 환경(예: 웹 페이지 상호작용)이나 비효율적인 장기 궤적 재생이 필요한 환경(예: 여러 차례의 도구 사용)에서 여전히 어려운 과제로 남아 있습니다. 결과적으로, 대부분의 현재 에이전트는 여전히 전문가 데이터를 활용한 지도 학습 미세 조정에 의존하는데, 이는 확장이 어렵고 일반화 능력이 떨어지는 단점이 있습니다.
이러한 한계를 극복하기 위해 메타 초지능 연구실(Meta Superintelligence Lab), 메타 FAIR, 그리고 오하이오 주립대학교는 공동으로 "초기 경험(Early Experience)"이라는 절충안을 제안했습니다. 이 패러다임은 보상 신호에 의존하는 대신, 에이전트 자신의 행동에서 생성된 상호작용 데이터를 활용하고 미래 상태를 감독 신호로 활용합니다. 이 패러다임은 후속 강화 학습의 탄탄한 토대를 마련하여 모방 학습과 완전한 경험 기반 에이전트 사이의 효과적인 연결 고리를 제공했습니다.
논문 링크:https://go.hyper.ai/a8Zkn
최신 AI 논문:https://go.hyper.ai/hzChC
더 많은 사용자에게 학계 인공지능 분야의 최신 동향을 알리기 위해 HyperAI 공식 웹사이트(hyper.ai)에 "최신 논문" 섹션이 개설되었습니다. 이 섹션에서는 매일 최첨단 AI 연구 논문을 업데이트합니다.우리가 추천하는 인기 있는 AI 논문 5편을 소개합니다.이번 주 최첨단 AI 성과를 간략히 살펴보겠습니다⬇️
이번 주 논문 추천
1. Less is More: 작은 네트워크를 사용한 재귀적 추론
본 논문은 작은 2층 신경망에만 의존하면서도 일반화 성능에서 HRM보다 훨씬 우수한 성능을 보이는 더 간단한 재귀 추론 방법인 Tiny Recursive Model(TRM)을 제안합니다. TRM은 700만 개의 매개변수만으로 ARC-AGI-1 과제에서 451 TP3T, ARC-AGI-2 과제에서 81 TP3T의 시험 정확도를 달성했습니다. 이는 Deepseek R1 및 o3-mini와 같은 대부분의 대규모 언어 모델의 성능을 능가하는 동시에, 이러한 모델들의 매개변수를 0.011 TP3T 미만으로 사용했습니다.
논문 링크:https://go.hyper.ai/bUZ6M

2. PromptCoT 2.0: LLM 추론을 위한 프롬프트 합성 확장
본 논문에서는 수작업으로 구축된 휴리스틱 규칙을 기대 극대화(EM) 반복 루프로 대체하여 추론 과정을 반복적으로 최적화함으로써 프롬프트 구성을 유도하는 확장 가능한 프레임워크인 PromptCoT 2.0을 제시합니다. 이 접근법은 기존 코퍼스보다 더 어렵고 다양한 질문을 생성합니다.
논문 링크:https://go.hyper.ai/jKAmy

3. 학습 목표: 저리소스 시각-언어 모델링을 위한 토큰별 동적 게이팅
본 논문에서는 세 가지 핵심 설계를 갖춘 경량 디코더 아키텍처를 제안합니다. (1) 언어와 시각적 단서의 적응적 융합을 달성하기 위한 토큰 수준 동적 게이팅 메커니즘, (2) 제한된 시각 정보의 활용 효율성을 극대화하기 위한 특징 변조 및 채널 주의 메커니즘, (3) 시각적 현지화 기능을 개선하기 위한 보조 대비 학습 목표입니다.
논문 링크:https://go.hyper.ai/D178P

4. 초기 경험을 통한 에이전트 학습
현재 대부분의 지능형 에이전트는 전문가 데이터를 활용한 지도 미세 조정(supervised fine-tuning)에 의존하고 있지만, 이러한 접근 방식은 확장성이 어렵고 일반화 능력이 떨어진다는 단점이 있습니다. 이러한 한계는 전문가 시연의 특성에서 비롯됩니다. 전문가 시연은 제한된 수의 시나리오만 다루기 때문에 에이전트가 경험하는 환경의 다양성이 부족합니다. 이러한 한계를 극복하기 위해 본 논문에서는 "초기 경험(early experience)"이라는 절충안을 제시합니다. 이는 에이전트가 자신의 행동을 통해 생성한 상호작용 데이터를 활용하고, 미래 상태를 감독 신호로 사용하며, 보상 신호에 의존하지 않는 방식입니다.
논문 링크:https://go.hyper.ai/a8Zkn

5. Xception: 심도별 분리 가능 합성곱을 사용한 딥 러닝
본 논문은 Inception에서 영감을 받은 새로운 심층 합성곱 신경망 아키텍처인 Xception을 제안합니다. Xception에서는 Inception 모듈을 깊이별 분리 합성곱으로 대체했습니다. Xception 아키텍처는 Inception V3와 동일한 매개변수 수를 가지므로, 성능 향상은 모델 용량 증가가 아닌 모델 매개변수의 효율적인 활용에 기인합니다.
논문 링크:https://go.hyper.ai/0BUt5

이번 주 논문 추천 내용은 여기까지입니다. 더 많은 최첨단 AI 연구 논문을 보시려면 hyper.ai 공식 웹사이트의 "최신 논문" 섹션을 방문하세요.
또한, 연구팀의 고품질 연구 결과와 논문 제출을 환영합니다. 관심 있는 분은 NeuroStar WeChat(WeChat ID: Hyperai01)을 추가해 주세요.
다음주에 뵙겠습니다!