HyperAI초신경

AI 주간 논문 보고서: Alibaba, Xiamen University, Zhejiang University 등의 최신 연구, 강화 학습 최적화 알고리즘, GUI 에이전트, 다중 모드 컨텍스트 압축 등을 다룹니다.

特色图像

대규모 언어 모델이 지속적으로 확장됨에 따라 효율적이고 안정적인 강화 학습 학습이 핵심 과제로 떠올랐습니다. 이를 해결하기 위해 알리바바 그룹의 Qwen 팀은 그룹 시퀀스 정책 최적화(GSPO)라는 새로운 강화 학습 알고리즘을 제안했습니다.

토큰 수준의 중요도 비율에 의존하는 기존 방식과 달리, GSPO는 시퀀스 확률을 기반으로 중요도 비율을 정의하고 시퀀스 수준에서 절단, 보상 및 최적화를 수행하여 학습 안정성과 효율성을 크게 향상시킵니다. GSPO는 Mixture-of-Experts 아키텍처에서 탁월한 성능을 발휘하여 강화 학습 인프라 설계를 간소화하고 최신 Qwen3 모델의 성능을 크게 향상시킵니다.

논문 링크:https://go.hyper.ai/FOrdj

최신 AI 논문:https://go.hyper.ai/hzChC

더 많은 사용자에게 학계 인공지능 분야의 최신 동향을 알리기 위해 HyperAI 공식 웹사이트(hyper.ai)에 "최신 논문" 섹션이 개설되었습니다. 이 섹션에서는 매일 최첨단 AI 연구 논문을 업데이트합니다.우리가 추천하는 인기 있는 AI 논문 5편을 소개합니다.이번 주 최첨단 AI 성과를 간략히 살펴보겠습니다⬇️

이번 주 논문 추천

1 그룹 시퀀스 정책 최적화

본 논문에서는 대규모 언어 모델을 학습하기 위한 안정적이고 효율적이며 고성능의 강화 학습 알고리즘인 그룹 시퀀스 정책 최적화(GSPO)를 소개합니다. 토큰 중요도 비율을 사용하는 기존 알고리즘과 달리, GSPO는 시퀀스 우도(likelihood)를 기반으로 중요도 비율을 정의하고 시퀀스 수준의 가지치기, 보상 및 최적화를 수행합니다.

논문 링크:https://go.hyper.ai/FOrdj

실험 데이터 그래프

2 UI-AGILE: 효과적인 강화 학습과 정확한 추론 시간 기반을 통한 GUI 에이전트 발전

기존 GUI 에이전트 학습 및 추론 방법은 여전히 추론 설계의 어려움, 비효율적인 보상 메커니즘, 시각적 잡음 간섭 등의 문제에 직면해 있습니다. 본 논문에서는 이미지를 더 작고 관리하기 쉬운 부분으로 나누어 고해상도 인터페이스에서 정렬 정확도를 크게 향상시키는 새로운 방법인 선택적 분해 정렬(selective decomposition alignment)을 제안합니다. 실험 결과는 UI-AGILE이 ScreenSpot-Pro와 ScreenSpot-v2의 두 가지 벤치마크 작업에서 최고 성능을 달성함을 보여줍니다.

논문 링크:https://go.hyper.ai/SRpdE

모델 아키텍처 다이어그램

3 토큰이 너무 많이 말할 때:  이미지, 비디오 및 오디오에 걸친 다중 모드 장문맥 토큰 압축에 대한 조사

본 논문은 빠르게 발전하고 있는 다중 모드 장문맥 토큰 압축 연구 분야에 대한 최초의 체계적인 문헌 고찰 및 요약을 제시합니다. 다양한 모드의 고유한 특성과 중복성을 고려하여, 연구자들은 기존 방법들을 주로 다루는 데이터 유형에 따라 분류함으로써 이미지 중심 압축, 비디오 중심 압축, 오디오 중심 압축 등 특정 연구 분야에 적용 가능한 방법들에 대한 빠른 접근을 가능하게 했습니다.

논문 링크:https://go.hyper.ai/nOYw4

모델 아키텍처 다이어그램

4 SciToolAgent: 다중 도구 통합을 위한 지식 그래프 기반 과학 에이전트

본 논문에서는 LLM 기반의 에이전트인 SciToolAgent를 소개합니다. SciToolAgent는 생물학, 화학, 재료 과학 분야에서 수백 가지 과학 연구 도구의 운영을 자동화합니다. SciToolAgent는 본질적으로 그래프 기반 검색 증강 생성(RAG) 메커니즘을 활용하여 지능적인 도구 선택 및 실행을 지원하는 과학 도구 지식 그래프입니다. 또한, 이 시스템은 책임감 있고 윤리적인 도구 사용을 보장하기 위해 포괄적인 안전 점검 모듈을 통합합니다.

논문 링크:https://go.hyper.ai/IOiRk

모델 아키텍처 다이어그램

5 SmallThinker: 효율적인 제품군  대규모 언어 모델 기본 제공  현지 배치를 위한 훈련

본 논문에서는 클라우드 모델을 압축한 것이 아니라 로컬 기기에 맞게 네이티브로 설계된 LLM 세트인 SmallThinker를 소개합니다. 이 LLM 세트는 로컬 기기의 고유한 한계, 즉 약한 컴퓨팅 성능, 제한된 메모리, 느린 저장 공간 문제를 해결하도록 특별히 설계되었습니다. SmallThinker는 제약이 있는 환경에서도 효율적으로 작동하도록 아키텍처를 재설계했습니다. 핵심은 시스템 제약 조건을 설계 원칙으로 변환하는 혁신적인 "배포 지향" 아키텍처를 기반으로 합니다.

논문 링크:https://go.hyper.ai/tSwpG

모델 아키텍처 다이어그램

이번 주 논문 추천 내용은 여기까지입니다. 더 많은 최첨단 AI 연구 논문을 보시려면 hyper.ai 공식 웹사이트의 "최신 논문" 섹션을 방문하세요.

또한, 연구팀의 고품질 연구 결과와 논문 제출을 환영합니다. 관심 있는 분은 NeuroStar WeChat(WeChat ID: Hyperai01)을 추가해 주세요.

다음주에 뵙겠습니다!