과학 데이터의 가용성을 개선하기 위해 중국 과학 아카데미의 장정더 연구팀은 지능형 에이전트를 기반으로 한 AI 지원 데이터 처리 및 제공 솔루션을 제안했습니다.

오늘날 고에너지 물리학 연구에서 최첨단 대규모 과학 시설은 끊임없이 막대한 양의 데이터를 생성하고 있습니다. 이처럼 전례 없는 데이터 폭증이 기존 분석 방법의 처리 한계를 훨씬 뛰어넘으면서, 인공지능(AI), 특히 머신러닝과 심층 신경망이 고에너지 물리학 연구 파이프라인 전반의 핵심 도구로 빠르게 자리 잡고 있습니다. AI 알고리즘은 방대한 양의 원시 데이터를 효율적으로 처리하고 그 안의 암묵적, 비선형적, 복잡한 패턴과 상관관계를 밝혀낼 뿐만 아니라, 가속기 작동 최적화, 검출기 성능 시뮬레이션, 실험 트리거 시스템 설계, 그리고 이론적 모델 탐구에 있어 응용 가능성을 보여줍니다. AI 방법론의 끊임없는 혁신과 심층적인 통합은 고에너지 물리학의 미래 발전을 위한 잠재적 원동력이 되었습니다.
2025년 CCF 국가 고성능 컴퓨팅 학술대회에서 고에너지물리학 연구소 컴퓨팅 센터의 연구원이자 AI4S 책임자인 장정더는 "대규모 모델 기반 지능형 에이전트 데이터 처리의 발전과 실제"를 주제로 "AI 지원 과학 데이터 기술" 포럼에서 발표를 진행했습니다.본 논문은 대규모 시설에서 수집되는 과학 데이터의 현황을 바탕으로, 데이터에 대한 효율적이고 고품질의 AI 기반 구축 계획을 체계적으로 설명하고, 데이터 주석 및 제공에 지능형 에이전트와 다중 에이전트 프레임워크를 적용하는 방법을 설명합니다.

HyperAI는 장정더 교수의 연설을 원문의 의도를 훼손하지 않고 편집 및 요약했습니다. 다음은 연설 전문입니다.
AI 준비 데이터 및 과학 데이터의 상태
오픈소스 AI4S 알고리즘의 맥락에서 데이터는 가장 중요한 핵심 문제가 되었습니다. AI4S는 효율적인 분석을 위해 데이터에 통일된 표준을 요구합니다. 대규모 과학 시설의 데이터는 일반적으로 통일된 형식과 저장 구조를 가지고 있지만, 실제로 대부분의 과학 데이터는 AI에 적합하지 않습니다.
고에너지 물리학에서 생성되는 막대한 양의 데이터는 데이터 수집, 처리 및 융합 기술에 대한 높은 요구를 충족할 뿐만 아니라 AI 방법론 개발에 필수적인 자원을 제공합니다. 오늘 보고서에서 언급된 데이터 유형에는 실험 데이터뿐만 아니라 시뮬레이션 데이터, 장치 작동 데이터, 코퍼스 데이터 등이 포함됩니다.
AI 준비 데이터 세트의 일반적인 정의는 머신 러닝과 인공 지능을 훈련, 평가, 배포하는 데 효율적이고 안전하며 재현 가능하게 사용할 수 있는 데이터 모음입니다.고품질 AI 준비 데이터에는 10가지 특징이 있습니다.
* 업무 적응.대상 시나리오 및 업무와 강력한 관련성이 있으며 포괄적인 범위와 대표성이 있습니다.
* 높은 품질과 일관성.정확하고, 완전하고, 일관성이 있으며, 중복이 제거되고, 노이즈가 제어됩니다.
* 신체 및 표시의 요구 사항을 준수합니다.고품질의 라벨, 계층 구조, 온톨로지 매핑이 있으며, 감사에 대한 주석이 달려 있습니다.
* 엔지니어링 가능.표준 형식, 적절한 샤딩/버케팅, 스트리밍 가능성, 병렬화 등을 갖춘 기계가 읽을 수 있는 기능
* 평가 가능하고 재사용 가능합니다.훈련, 테스트, 검증 데이터를 엄격하게 구분하고, 벤치마크 세트에는 명확하고 합리적인 평가 지표가 있습니다.
* 메타데이터와 강화.메타데이터 수집 방법, 시간, 장치 시스템, 컨텍스트, 버전 및 기타 정보를 다룹니다.
* 데이터 편차 제어.예를 들어 샘플링 편향, 라벨 편향, 역사적 편향 등이 있습니다.
* 사용 가능.안정적인 액세스 인터페이스, 문서 및 예제
* 합리적이고 규정을 준수합니다.사용 권한 및 권리, 개인정보 보호, 최상의 PII
* 안전하고 신뢰할 수 있음.암호화(전송 중/저장 중), 최소 권한, 키 관리 등
실제 연구에서 데이터는 모델 학습에만 사용되는 것이 아니라 모델 평가에도 활용되어야 합니다. 따라서 데이터셋에는 정밀도, 재현율, F1 점수와 같은 해당 평가 지표를 설정해야 합니다. 그러나 이러한 지표는 분류와 같은 일부 작업에는 일반적으로 적용 가능하지만, 회귀와 같은 문제에는 효과적이지 않습니다. 이는 AI 기반 데이터셋의 품질에 대한 요구 사항을 높이고 과제를 야기합니다.
현재,검증된 AI-Ready 데이터 세트는 온톨로지 및 주석이 포함된 데이터를 포함할 뿐만 아니라, AI 작업에 대한 설명과 같은 정보를 포함한 메타데이터도 제공해야 합니다. 더 중요한 것은, AI-Ready 데이터 세트는 가치 있는 AI 작업과 직접적으로 연관되어야 한다는 것입니다.예를 들어 광원을 살펴보면, AI 애플리케이션은 이미징, 분광학, 회절 산란과 같은 특정 과학적 작업을 효과적으로 지원할 수 있어야 합니다.

다음으로, AI 지원 데이터세트의 구성 요소를 설명하기 위해 두 가지 예를 들어보겠습니다. 예를 들어, 나노섬유 배향 예측 AI 데이터세트는 광각 회절 스펙트럼을 기반으로 나노섬유 배향 매개변수를 직접 예측하는 명확한 AI 과제를 가지고 있습니다. 이러한 데이터세트를 구축하려면 시뮬레이션 데이터와 실험 데이터를 모두 통합적으로 활용해야 합니다.

예를 들어, 적층 영상의 신속한 재구성을 위한 AI 데이터셋은 회절 패턴을 입력하고, 위상과 진폭을 예측하고, 재구성된 영상을 계산하는 AI 작업을 완료하여 영상 재구성에 필요한 광범위한 계산 작업을 완료할 수 있습니다. 이 아키텍처는 위상 예측과 진폭 예측을 위한 두 가지 분기로 구성됩니다. 실제 값은 과학적 컴퓨팅 반복 알고리즘과 수많은 투영을 통해 도출됩니다.

데이터 처리에 에이전트 기술 적용
에이전트의 정의는 사용자의 지식, 프로그램, 환경 및 입력 정보를 기반으로 사용자를 대신하여 결정을 내리거나 작업을 수행할 수 있는 소프트웨어 또는 시스템을 의미하는 인공지능의 원래 정의와 매우 유사합니다.
지능형 에이전트는 자동화 기술과 유사하지만, 자동화 기술은 일반적으로 고정된 프로세스에 의존하여 작동합니다. 기존 자동화와 달리 지능형 에이전트는 결정론적 규칙으로 효과적으로 처리할 수 없는 워크플로우를 처리하는 데 특히 적합하며, 기존 규칙 기반 컴퓨팅 방식으로는 처리하기 어려운 작업도 처리할 수 있습니다.지능형 에이전트가 모든 시나리오에 적합한 것은 아닙니다. 지능형 에이전트의 효과는 특정 작업 환경에 크게 좌우되며, 의사 결정 및 처리 과정의 복잡성을 철저히 고려해야 합니다. 따라서 지능형 에이전트를 구축하려면 시스템이 복잡한 의사 결정 프로세스를 처리하는 방식을 재고해야 합니다.
지능형 에이전트의 두뇌는 거대한 모델이므로 지능형 에이전트와 거대한 모델 간의 관계는 실제로는 포함 관계입니다.지능형 에이전트와 대형 모델의 차이점은 인식 계층, 실행 계층, 메모리 계층, 처리 센터를 포함한다는 점입니다.도메인 전문성, 과학적 분석 도구, 데이터 및 메타데이터 인식, 코드 작성 및 프로그램 실행, 작업 계획, 역할 할당 및 협업 등을 배울 수 있습니다.

동시에, 단일 에이전트 시스템과 다중 에이전트 시스템의 적용 시나리오도 서로 다릅니다. 일반적으로 단일 에이전트 시스템은 단일 도구를 사용합니다. 사용하는 도구의 수가 증가하면 도구 선택의 정확도가 떨어집니다. 이러한 경우, 혼란을 피하기 위해 다중 에이전트 시스템을 사용할 수 있습니다.

라벨링 도구 기반의 AI 기반 데이터 라벨링은 정확도가 높지만, 높은 수준의 수동 참여가 필요합니다. 지능형 에이전트 기반의 AI 기반 데이터 라벨링은 고도로 자동화되고 효율적이며, 데이터 정보 이해 및 지원을 제공할 수 있습니다. 학제간 연구에 적합하지만, 초기 정확도가 상대적으로 낮을 수 있으며, 지속적인 학습 및 피드백 메커니즘을 통해 라벨링 정확도를 지속적으로 개선해야 합니다.현재, 주석 기반 주석 도구 중 다수는 점차 "지능형 에이전트 모듈 + 인간-컴퓨터 상호작용 + 지능형 지원 + 검토 시스템 + 데이터베이스"의 모델로 전환되고 있습니다.
광원 장면에 적용된 데이터 에이전트
저희 팀의 데이터 에이전트는 주로 광원(HEPS)/중성자 소스(CSNS) 시나리오에서 데이터 처리 및 공급을 지원하는 데 사용됩니다. 에이전트의 업스트림은 Domas 데이터 관리 시스템이며, 이 시스템은 빅데이터 장치의 데이터 수집 시스템에 연결되고, 이 시스템은 다시 검출기 자체에 연결됩니다.
데이터 에이전트에 대한 자세한 정보:
https://github.com/hepaihub/drsai
HepAI 플랫폼 링크:
에이전트 워크플로는 5단계로 구분됩니다.
* 실험 데이터 및 메타데이터를 포함한 데이터 정보를 얻기 위해 Domas에 연결합니다.
* 획득한 데이터를 기반으로 지식베이스를 업데이트합니다.
* 에이전트는 특정 작업에 따라 데이터를 추가로 인식하고 데이터 형식을 변환하고 명령을 실행하여 데이터 상호 작용을 완료합니다.
* 다양한 과학적 컴퓨팅 도구를 사용하여 데이터를 처리합니다.
* 작업 실행을 위해 실행자에 데이터를 입력하고, 출력 결과를 Domas에 다시 입력합니다.

현재 이 에이전트는 교차 장치 X선 회절 및 중성자 분말 회절 실험과 시뮬레이션의 AI 데이터 세트를 구성하고, 쌍 분포 함수(PDF)의 실험-시뮬레이션 융합 데이터 세트를 구성하는 데 사용될 수 있습니다.


AI 기반 과학적 발견 시스템
데이터 처리에 지능형 에이전트 기술을 사용하는 이유는 AI4S가 점차 발전 추세로 자리 잡고 있기 때문입니다. AI는 고에너지 물리학의 연구 및 발견에 도움이 되지만, 높은 데이터 요구 사항을 가지고 있습니다.따라서 우리는 AI를 활용하여 원시 데이터를 AI에 적합한 형태로 변환하여 연구 개발 성과를 홍보하고 AI 기반 과학적 발견 시스템을 구축하는 "AI4Data"에서 "Data4AI"로의 전략을 채택했습니다.

장정더 연구원과 그의 팀에 대하여
장정더 박사는 중국과학원 고에너지물리연구소의 저명한 젊은 연구원입니다. 그는 중국과학원 상하이 응용물리연구소에서 입자물리학 및 핵물리학 박사 학위를 받았습니다. 그의 주요 연구 분야는 AI 알고리즘, 대규모 모델, 과학적 발견을 위한 지능형 에이전트이며, 딥러닝 알고리즘, 과학 데이터용 대규모 모델, 인공지능 플랫폼, 소프트웨어 시스템 등을 포괄합니다. 그의 주요 목표는 입자물리학, 입자천체물리학, 싱크로트론 방사선, 중성자 과학, 가속기 분야에서 AI의 응용을 촉진하는 것입니다.

현재 장정더 연구원은 GitHub에 6개의 대표적인 오픈소스 프로젝트를 공개하고, CDNet, FINet, MWNet 등 신경망을 개발했으며, 고에너지 Xiwu 언어 모델과 "Science Doctor" 과학 연구 에이전트를 개발하고, 고에너지 물리 인공지능 플랫폼 HepAI[4]를 기획 및 구축했습니다. 동시에 "0에서 1로 프로젝트 - AI 빅모델 기반 고에너지 물리 과학적 발견 연구", "인공지능 기반 고에너지 물리 빅데이터 기술 연구 및 실증" 등 다수의 중요 과학 연구 프로젝트를 주도했습니다.
참고문헌:
[3] hepai-group. (nd). Open drsai [컴퓨터 소프트웨어]. GitHub. https://github.com/hepaihub/drsai
[4] hepai-group. (nd). HepAI 플랫폼. https://ai.ihep.ac.cn
2023년부터 2024년까지 AI4S 분야의 고품질 논문과 심층 해석 기사를 클릭 한 번으로 받아보세요⬇️
