서울AI, '서생' 과학 멀티모달 모델 Intern-S1 공개
2025년 7월 26일, 세계 인공지능 대회(WAIC 2025)가 개막되었다. 이날 오후 과학 전문 세션에서 상하이 인공지능 연구소는 '서생' 과학 다모달 대형 모델 'Intern-S1'을 공개하고 오픈소스로 제공했다. 과학 연구에서 기존의 단일 모달 분석 방식은 복잡한 현상을 포괄적으로 파악하는 데 한계가 있었으며, 특히 다학제적 연구에서 이 문제가 더욱 두드러졌다. 'Intern-S1'은 '서생' 모델 가족의 기술적 우수성을 바탕으로 언어와 다모달 성능을 균형 있게 발전시키며, 다양한 학문 분야의 전문 지식을 통합했다. 특히 과학 분야의 능력을 강화하여, 처음으로 전문 과학 능력을 갖춘 오픈소스 일반 모델로 평가받는다. 이 모델의 종합 성능은 현재 공개된 다모달 대형 모델 중 최고 수준이다. 이 모델을 기반으로 한 '서생' 과학 발견 플랫폼 'Intern-Discovery'도 최근 선출되었다. 이 플랫폼은 연구자, 연구 도구, 연구 대상의 능력을 종합적으로 향상시키고 협력적으로 발전시켜, 과학 연구를 단일 팀의 탐색에서 'Scaling Law' 단계로 전환하는 데 기여한다. 'Intern-S1' 체험 페이지: https://chat.intern-ai.org.cn, GitHub 링크: https://github.com/InternLM/Intern-S1, HuggingFace 링크: https://huggingface.co/internlm/Intern-S1-FP8, ModelScope 링크: https://modelscope.cn/models/Shanghai_AI_Laboratory/Intern-S1 대형 모델이 대화, 그림 생성, 코드 작성 등 다양한 분야에서 혁신을 이어가고 있는 가운데, 과학 연구 분야에서는 진정한 '과학을 아는 AI'가 여전히 필요로 되고 있다. 현재 주요 모델은 자연어 처리나 이미지 인식 등에서 뛰어난 성능을 보이지만, 복잡하고 세밀하며 전문적인 과학 작업에 적용할 때는 여전히 한계가 있다. 첫째, 기존 오픈소스 모델은 복잡한 과학 데이터를 깊이 이해하지 못해 연구의 정확성, 전문성, 추론 능력에 대한 요구를 충족하지 못한다. 둘째, 성능이 우수한 폐쇄형 모델은 배포 어려움과 통제 불가능성으로 인해 연구자들이 높은 비용과 낮은 투명성에 직면하는 경우가 많다. 'Intern-S1'은 '크로스모달 과학 해석 엔진'을 도입해 화학 분자식, 단백질 구조, 지진파 신호 등 다양한 복잡한 과학 데이터를 정확히 해석할 수 있다. 또한, 화합물 합성 경로 예측, 화학 반응 가능성 판단, 지진파 이벤트 식별 등의 전문 연구 능력을 갖추고 있어, AI가 단순한 '대화 보조자'에서 '연구 동반자'로 진화하는 계기가 되었다. 'Intern-S1'은 화학, 재료, 지구과학 등 여러 학문 분야의 전문 작업 기준에서 최상위 기업인 'Grok-4'를 초월하며, 뛰어난 과학 추론과 이해 능력을 보여주고 있다. 다모달 종합 능력에서도 'InternVL3'와 'Qwen2.5-VL' 등 주요 오픈소스 모델보다 우수한 성능을 보인다. 이는 '다재다능한 전문가' 중에서도 '과학적 명성'을 가진 모델로 평가받는다. 'Intern-S1'의 강력한 다모달 생물 정보 인식과 통합 능력을 바탕으로, 상하이 인공지능 연구소는 린항 연구소, 상하이 교통대학교, 후난대학교, MIT 등 여러 연구 기관과 협력하여 다지능체 가상 질병학자 시스템 '원생(OriGene)'을 개발했다. 이 시스템은 표적 발견과 임상 전환 가치 평가에 활용되며, 간암과 대장암 치료 분야에서 각각 새로운 표적 'GPR160'과 'ARG2'를 제시했다. 이는 실제 임상 샘플과 동물 실험을 통해 검증된 과학적 결론이다. 'Intern-S1'의 성능 향상은 체계적인 기술 혁신을 기반으로 이뤄졌다. '서생' 대형 모델이 처음 공개된 이후, 연구소는 다양한 '서생' 모델 가족을 점차 구축해 왔다. 대규모 언어 모델인 '서생·푸유(InternLM)', 다모달 모델 '서생·완상(InternVL)', 강력한 추론 모델 '서생·시객(InternThinker)' 등이 포함된다. '통전융합' 기술 전략을 통해, 연구팀은 지속적인 체계적 혁신을 통해 'Intern-S1'을 성공적으로 개발했다. 이는 새로운 모델의 표준이 되었다. 과학적 다모달 데이터를 효과적으로 통합하기 위해, 'Intern-S1'은 동적 Tokenizer와 시계열 신호 인코더를 추가하여 다양한 복잡한 과학 모달 데이터를 처리할 수 있도록 설계되었다. 이는 재료 과학의 화학 분자식, 생물제약 분야의 단백질 시퀀스, 천문 관측의 광변곡선, 천체 충돌로 발생하는 중력파 신호, 지진 관측망의 지진파 형상 등을 포함한다. 아키텍처 혁신을 통해 'Intern-S1'은 과학 모달 데이터를 깊이 이해하고 효율적으로 처리할 수 있도록 했으며, 예를 들어 화학 분자식의 압축률은 'DeepSeek-R1'에 비해 70% 이상 높다. 또한, 다양한 과학 모달 기반 전문 작업에서 사용하는 계산 자원은 적고, 성능은 우수하다. 과학 분야의 고가치 작업은 일반적으로 매우 전문적이며, 모델의 출력이 해석하기 어려운 경우가 많다. 또한, 다양한 작업은 서로 다른 기술과 사고 방식을 요구하기 때문에, 단순한 혼합 학습은 한쪽이 다른 쪽을 희생하는 문제를 일으킨다. 이를 해결하기 위해 연구팀은 '통전융합'의 과학 데이터 생성 방법을 제안했다. 이는 방대한 일반 과학 데이터를 활용해 모델의 지식 범위를 확장하고, 전문 모델을 통해 고해석성과 명확한 사고 과정을 가진 과학 데이터를 생성하며, 전문 분야에 맞춘 검증 지능체를 통해 데이터 품질을 관리하는 방법이다. 이 반복적인 시스템은 기반 모델의 성능을 지속적으로 향상시켜, 일반적인 추론 능력과 전문 능력을 동시에 갖춘 모델을 구현하는 데 성공했다. 강화 학습 기술의 개선을 통해 'Intern-S1' 연구팀은 대규모 다모달 MoE 모델을 FP8 정밀도에서 효율적이고 안정적으로 학습할 수 있었다. 이 모델의 강화 학습 학습 비용은 최근 공개된 MoE 모델보다 10배 낮았다. 시스템 측면에서는 학습과 추론을 분리한 RL 방식을 채택했으며, 자체 개발한 추론 엔진을 통해 FP8 정밀도의 고효율 대규모 비동기 추론을 수행하고, 데이터 병렬 균형 전략을 통해 장기적인 사고 체인 해석 시 지연 문제를 완화했다. 학습 과정에서는 블록식 FP8 학습을 활용해 학습 효율을 극대화했다. 향후, 이 학습 시스템도 오픈소스로 공개될 예정이다. 알고리즘 측면에서는 'Intern·BootCamp'을 기반으로 한 대규모 다중 작업 상호작용 환경에서 'Mixture of Rewards' 혼합 보상 학습 알고리즘을 개발했다. 이 알고리즘은 다양한 보상과 피드백 신호를 통합해, 쉽게 검증 가능한 작업에서는 RLVR 학습 범식을 적용하고, 규칙이나 검증기, 상호작용 환경을 통해 보상을 제공한다. 반면, 검증이 어려운 작업(예: 대화 및 글쓰기)에서는 보상 모델을 통해 학습을 수행한다. 또한, 연구팀은 상하이 인공지능 연구소의 대형 모델 강화 학습 전략을 통합해, 학습 효율과 안정성을 크게 향상시켰다. '서생' 모델은 2023년부터 오픈소스로 제공되어, 다양한 버전이 업데이트 되었으며, 대형 모델의 연구 및 적용을 위한 전 과정 오픈소스 도구 체계를 처음으로 개발했다. 이 체계는 데이터 처리, 사전 학습, 미세 조정, 배포, 평가 및 응용 등의 주요 단계를 포함하며, 저비용 미세 조정 프레임워크 'XTuner', 배포 추론 프레임워크 'LMDeploy', 평가 프레임워크 'OpenCompass', 효율적인 문서 해석 도구 'MinerU', 사고형 AI 검색 응용 'MindSearch' 등이 포함된다. 이들 도구는 수십만 명의 개발자가 참여하는 활발한 오픈소스 커뮤니티를 형성했다. 최근 연구소는 다지능체 프레임워크 'Intern·Agent'도 오픈소스로 공개했다. 이 프레임워크는 화학, 물리, 생물 등 다양한 과학 작업에 적용되며, 연구 효율을 크게 높이고, 다지능체 시스템의 자율 학습과 지속적인 진화 가능성을 보여준다. 이는 인공지능이 알고리즘 설계 및 과학 발견 등 고급 과학 작업을 수행할 수 있는 새로운 가능성을 열었다. 앞으로 연구 방법론과 모델 능력의 발전을 바탕으로, 연구소는 'Intern-S1'과 그 전 과정의 도구 체계를 지속적으로 오픈소스로 제공할 계획이다. 이 모델은 무료로 상용화가 가능하며, 온라인 공개 서비스도 제공될 예정이다. 연구소는 다양한 분야와 함께, 더 나은 과학적 AI 어시스턴트를 함께 구축하려고 노력하고 있다. 'Intern-S1'은 과학적 지식을 바탕으로 일상적인 과학 문제도 손쉽게 해결할 수 있다. 예를 들어, 복잡한 인증 코드도 정확하게 해석할 수 있으며, 다양한 혼란스러운 이미지 중에서 블랙홀을 식별할 수 있다. 예술 작품을 감상할 때도 감성적 접근과 함께, 과학적인 논리와 지식 체계를 바탕으로 예술 작품을 분석하고, 예술을 과학적으로 '해독'할 수 있다.