AI 주간 보고서: NVIDIA 최신 언어 모델/Ovis 2.5 기술 보고서... 대규모 모델 아키텍처 최적화/3D 모델링/정렬 및 자체 검증 분야의 최신 기술 간략히 살펴보기

대규모 언어 모델의 급속한 발전으로, 풀 어텐션 메커니즘은 놀라운 정확도를 보여주었습니다. 그러나 O(n²)의 계산 복잡도로 인해 긴 컨텍스트 작업에서 상당한 메모리 및 컴퓨팅 전력 소모가 발생하여 효율적인 적용에 제약이 있습니다. 기존 아키텍처는 종종 처음부터 학습하는 데 의존하는데, 이는 비용이 많이 들고 중소 규모 연구 기관에는 적합하지 않습니다. 정확도와 효율성의 균형을 맞추면서도 하이브리드 아키텍처는 여전히 설계 복잡성과 하드웨어 적응 문제에 직면합니다.
이러한 과제를 해결하기 위해 연구팀은 Jet-Nemotron을 제안했습니다. 이는 PostNAS(Post-Neural Architecture Search)를 사용하여 사전 훈련된 전체 주의 모델의 MLP 가중치를 동결하고, 최적의 주의 모듈 설계를 탐색하고, 전체 주의 모델의 정확도를 유지하거나 뛰어넘는 동시에 생성 처리량을 크게 향상시켜 효율적인 언어 모델 설계를 위한 실행 가능한 경로를 제공합니다.
논문 링크:https://go.hyper.ai/8MhfF
최신 AI 논문:https://go.hyper.ai/hzChC
더 많은 사용자에게 학계 인공지능 분야의 최신 동향을 알리기 위해 HyperAI 공식 웹사이트(hyper.ai)에 "최신 논문" 섹션이 개설되었습니다. 이 섹션에서는 매일 최첨단 AI 연구 논문을 업데이트합니다.우리가 추천하는 인기 있는 AI 논문 5편을 소개합니다.동시에, 모든 분들을 위해 논문 구조의 마인드맵도 요약했습니다. 이번 주 AI의 최첨단 성과를 간략하게 살펴보겠습니다⬇️
이번 주 논문 추천
1. Jet-Nemotron: 포스트 신경망 구조 검색을 통한 효율적인 언어 모델
본 논문에서는 선도적인 완전 어텐션 모델의 정확도를 유지하거나 능가하는 동시에 생성 처리량을 크게 향상시키는 새로운 하이브리드 아키텍처 언어 모델인 Jet-Nemotron을 제시합니다. Jet-Nemotron은 효율적인 모델 설계를 가능하게 하는 "Post-Neural Architecture Search"라는 새로운 신경 구조 탐색 프로세스를 사용하여 개발되었습니다. 기존 접근 방식과 달리 PostNAS는 사전 학습된 완전 어텐션 모델에서 시작하여 다층 퍼셉트론 가중치를 고정하여 어텐션 모듈 구조의 효율적인 탐색을 가능하게 합니다.
논문 링크:https://go.hyper.ai/8MhfF


2. Ovis2.5 기술 보고서
본 논문에서는 네이티브 해상도 시각 인식 및 강력한 멀티모달 추론을 위해 설계된 Ovis2.5를 제시합니다. Ovis2.5는 이미지를 네이티브 가변 해상도에서 직접 처리하는 네이티브 해상도 시각 변환기를 통합하여 고정 해상도 분할과 관련된 품질 저하를 방지하는 동시에 미세한 디테일과 글로벌 레이아웃을 완벽하게 보존합니다.
논문 링크:https://go.hyper.ai/nZOmk


3. FutureX: 미래 예측을 위한 LLM 에이전트를 위한 고급 라이브 벤치마크
미래 예측은 복잡한 추론 능력과 동적 적응력을 갖춘 에이전트를 필요로 하는데, 이는 대규모 언어 모델 에이전트에게는 매우 어려운 작업입니다. 현재 실시간으로 업데이트하고 예측 성능을 정확하게 평가할 수 있는 대규모 벤치마크가 부족합니다. 본 논문에서는 LLM 에이전트의 미래 예측 작업을 위해 특별히 설계된 동적 실시간 평가 벤치마크인 FutureX를 제안합니다. FutureX는 현재까지 가장 크고 다양한 실시간 예측 평가 프레임워크입니다. 매일 실시간 업데이트를 지원하고 질의응답 수집을 위한 자동화된 프로세스를 사용하여 데이터 오염을 효과적으로 제거합니다.
논문 링크:https://go.hyper.ai/rjbaU


4. MeshCoder: 포인트 클라우드에서 LLM 기반 구조화된 메시 코드 생성
3D 객체를 편집 가능한 프로그램으로 재구성하는 것은 역설계 및 형상 편집과 같은 응용 분야에서 필수적이지만, 기존 방식에는 여전히 많은 제약이 있습니다. 본 논문에서는 포인트 클라우드에서 복잡한 3D 객체를 편집 가능한 Blender Python 스크립트로 재구성하는 새로운 프레임워크인 MeshCoder를 제안합니다. 풍부한 API를 개발하고, 대규모 객체-코드 데이터셋을 구축하며, 다중 모드 대규모 언어 모델을 학습함으로써 고정밀 형상-코드 변환을 달성합니다. 이를 통해 3D 재구성 성능이 향상될 뿐만 아니라 직관적인 지오메트리 및 토폴로지 편집을 지원하여 LLM의 3D 형상 이해 추론 기능을 향상시킵니다.
논문 링크:https://go.hyper.ai/EAWIn


5. DuPO: DualPreference 최적화를 통한 안정적인 LLM 자체 검증 활성화
본 논문은 일반화된 이중성을 통해 레이블이 지정되지 않은 피드백을 생성하는 이중 학습 기반 선호도 최적화 프레임워크인 DuPO를 제안합니다. DuPO는 두 가지 주요 한계점을 해결합니다. 첫째, 검증 가능한 보상을 포함하는 강화 학습(RLVR)은 비용이 많이 드는 주석에 의존하며 검증 가능한 작업에만 적용할 수 있습니다. 둘째, 기존의 이중 학습은 엄격하게 이중 작업 쌍(예: 번역 및 역번역)으로 제한됩니다.
논문 링크:https://go.hyper.ai/2Gycl


이번 주 논문 추천 내용은 여기까지입니다. 더 많은 최첨단 AI 연구 논문을 보시려면 hyper.ai 공식 웹사이트의 "최신 논문" 섹션을 방문하세요.
또한, 연구팀의 고품질 연구 결과와 논문 제출을 환영합니다. 관심 있는 분은 NeuroStar WeChat(WeChat ID: Hyperai01)을 추가해 주세요.
다음주에 뵙겠습니다!