HyperAIHyperAI

Command Palette

Search for a command to run...

AI Paper 주간 보고서 | De Novo 단백질 설계 / 최초의 오픈소스 에이전트 솔루션 / HunyuanOCR / Olmo 3 언어 모델... 원클릭 개요

Featured Image

다중 모드 대규모 언어 모델(MLLM)은 인간과 유사한 상호작용을 달성할 수 있는 엄청난 잠재력을 가지고 있지만, 이를 개발하는 데 있어 핵심 과제가 있습니다. 즉, 복잡한 인간의 의도를 이해하는 모델의 능력을 동시에 측정하고 공감적이고 상황에 맞는 피드백을 제공할 수 있는 인간 중심 시나리오에 대한 세분화된 평가 프레임워크가 부족하다는 것입니다.

이를 바탕으로 시안 교통대학교 연구팀은 앤트 그룹과 협력하여 MLLM의 인간 중심적 인식 및 상호작용 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 HumanSense를 제안했습니다. 이 벤치마크는 확장된 다중 모드 맥락에 대한 심층적인 이해와 합리적인 반응 도출에 특히 중점을 두고 있습니다. 결과는 MLLM이 인간 중심 시나리오, 특히 고수준 상호작용을 지향하는 과제에서 상당한 개선의 여지가 있음을 보여줍니다. 또한 연구진은 HumanSense-Omni-Reasoning을 형성하는 다단계, 모드-점진적 강화 학습 방법을 설계하여 고수준 이해 및 상호작용 과제의 성과를 크게 향상시켰습니다.

논문 링크:https://go.hyper.ai/xYM02

최신 AI 논문:https://go.hyper.ai/hzChC

더 많은 사용자에게 학계 인공지능 분야의 최신 동향을 알리기 위해 HyperAI 공식 웹사이트(hyper.ai)에 "최신 논문" 섹션이 개설되었습니다. 이 섹션에서는 매일 최첨단 AI 연구 논문을 업데이트합니다.우리가 추천하는 인기 있는 AI 논문 5편을 소개합니다.이번 주 최첨단 AI 성과를 간략히 살펴보겠습니다⬇️

이번 주 논문 추천

1.잼-2

제목: JAM-2: 높은 성공률을 갖는 약물 유사 항체의 완전 계산 설계

본 논문은 VHH-Fc 항체와 전장 단일클론항체(mAb)의 고효율 설계를 최초로 달성하고, 약물 유사 친화도 및 개발 가능성을 제공하는 범용 신생 단백질 설계 시스템인 JAM-2를 소개합니다. JAM-2는 전례 없는 폭넓은 표적 및 에피토프를 이용하여 두 자릿수의 성공률을 달성했습니다. JAM-2는 16개의 미확인 표적 중 모든 표적에 대해 결합 분자를 성공적으로 확보했으며, 평균 성공률은 VHH-Fc에서 39%, mAb에서 18%였습니다.

논문 링크:https://go.hyper.ai/3Mfna

JAM-2는 약물과 유사한 친화성을 활용해 이전에는 볼 수 없었던 표적에 대한 항체를 설계하여 두 자릿수의 결합률을 보입니다.

2.올모 3

이 글에서는 7B 및 32B 매개변수 스케일을 갖춘 업계 최고의 완전 오픈 소스 언어 모델 제품군인 Olmo 3를 소개합니다. Olmo 3 모델은 장문 추론, 함수 호출, 프로그래밍, 명령어 수행, 일반 대화 및 지식 검색을 지원하도록 설계되었습니다. 이번 릴리스에는 빌드부터 배포까지 모델 제품군의 전체 수명 주기를 포괄하는 완전한 모델 흐름이 포함되어 있으며, 모든 학습 단계, 체크포인트, 데이터 포인트 및 종속성을 포괄합니다.

논문 링크:https://go.hyper.ai/HgvWV

모델 워크플로 다이어그램

3.루민

제목: Lumine: 3D 오픈 월드에서 일반 에이전트를 구축하기 위한 오픈 레시피

본 논문은 복잡한 3D 오픈 월드 환경에서 실시간으로 몇 시간 동안 복잡한 작업을 실행할 수 있는 최초의 오픈 소스 범용 지능형 에이전트 개발 방식인 루민(Lumine)을 제안합니다. 이 모델은 인간과 유사한 상호작용 패러다임을 채택하여 시각-언어 모델을 통해 지각, 추론, 그리고 행동을 종단 간(end-to-end) 방식으로 통합합니다. 초당 5프레임의 속도로 원시 픽셀 입력을 처리하고, 초당 30프레임의 속도로 정확한 키보드 및 마우스 동작을 생성하며, 필요한 경우에만 추론 모듈을 동적으로 호출합니다.

논문 링크:https://go.hyper.ai/6qg4A

모델 개요

4.휴먼센스

제목: HumanSense: 추론 MLLM을 통한 다중 모드 인식에서 공감적 상황 인식 반응으로

본 논문은 인간 중심적 지각 및 상호작용에서 MLLM의 역량을 평가하기 위해 설계된 포괄적인 벤치마킹 프레임워크인 HumanSense를 제안하며, 특히 장기적인 다중모달 맥락에 대한 심층적인 이해와 합리적인 반응 생성에 중점을 둡니다. 평가 결과는 현재 선도적인 MLLM들이 고수준 상호작용 과제에서 여전히 상당한 개선의 여지가 있음을 보여줍니다. 더 나아가, 본 논문은 HumanSense-Omni-Reasoning 모델을 구축하기 위해 다단계, 모달리티-점진적 강화 학습 접근법을 설계하여 고수준 이해 및 상호작용 과제에서 모델의 성능을 크게 향상시킵니다.

논문 링크:https://go.hyper.ai/xYM02

HumanSense는 계층적 구조에 따라 설계되었습니다.

5.HunyuanOCR 기술 보고서

본 논문에서는 OCR 작업을 위한 상용 등급, 오픈 소스, 경량(10억 개의 매개변수) 시각 언어 모델(VLM)인 HunyuanOCR을 제안합니다. 모델 아키텍처는 네이티브 시각 변환기(ViT)와 MLP 어댑터를 통해 연결된 경량 대용량 언어 모델(LLM)로 구성됩니다. HunyuanOCR은 기존 상용 API, 기존 처리 워크플로, 그리고 더 많은 매개변수를 사용하는 모델(예: Qwen3-VL-4B)보다 우수한 성능을 보여줍니다.

논문 링크:https://go.hyper.ai/KxstF

모델 아키텍처 다이어그램

이번 주 논문 추천 내용은 여기까지입니다. 더 많은 최첨단 AI 연구 논문을 보시려면 hyper.ai 공식 웹사이트의 "최신 논문" 섹션을 방문하세요.

또한, 연구팀의 고품질 연구 결과와 논문 제출을 환영합니다. 관심 있는 분은 NeuroStar WeChat(WeChat ID: Hyperai01)을 추가해 주세요.

다음주에 뵙겠습니다!