메모리 사용량 최대 751 Tp3T 감소: 미국 에너지부 과학자들이 초대형 모델 다중 채널 데이터 세트 실행을 가능하게 하는 교차 채널 계층적 집계 방법인 D-CHAG를 제안했습니다.

6달 전

비전 기반 과학 기초 모델은 다양한 출처(예: 다양한 물리적 관찰 시나리오)의 이미지 데이터를 통합하고 Transformer 아키텍처를 사용하여 시공간적 상관관계를 학습하는 능력 덕분에 과학적 발견과 혁신을 이끌어낼 수 있는 엄청난 잠재력을 지니고 있습니다. 그러나 이미지의 토큰화 및 통합은 계산 비용이 많이 들며, 텐서 병렬 처리(TP), 시퀀스 병렬 처리(SP), 데이터 병렬 처리(DP)와 같은 기존의 분산 처리 방식은 아직 이러한 문제를 충분히 해결하지 못했습니다.

이러한 맥락에서,미국 에너지부 산하 오크리지 국립연구소의 연구원들이 기본 모델에 적용할 수 있는 분산형 교차 채널 계층적 집계(D-CHAG) 방법을 제안했습니다.이 방법은 토큰화 프로세스를 분산시키고 채널 집계를 위한 계층적 전략을 사용하여 매우 큰 규모의 모델을 다중 채널 데이터 세트에서 실행할 수 있도록 합니다. 연구진은 초분광 영상 및 기상 예측 작업에서 D-CHAG를 평가한 결과, 이 방법을 텐서 병렬 처리 및 모델 샤딩과 결합하면 Frontier 슈퍼컴퓨터에서 메모리 사용량을 최대 751 TP3T까지 줄이고 최대 1,024개의 AMD GPU에서 2배 이상의 지속적인 처리량 향상을 달성할 수 있음을 발견했습니다.

"파운데이션 모델을 위한 분산형 교차 채널 계층적 집계"라는 제목의 관련 연구 결과가 SC25에 게재되었습니다.

연구 하이라이트:

* D-CHAG는 다중 채널 기본 모델 학습에서 발생하는 메모리 병목 현상과 계산 효율성 문제를 해결합니다.

* TP만 사용하는 경우와 비교했을 때, D-CHAG는 최대 70%의 메모리 사용량 감소를 달성하여 보다 효율적인 대규모 모델 학습을 지원할 수 있습니다.

* D-CHAG의 성능은 기상 예측 및 초분광 식물 이미지 마스킹 예측이라는 두 가지 과학적 작업 부하에서 검증되었습니다.

서류 주소:
https://dl.acm.org/doi/10.1145/3712285.3759870
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "크로스채널"이라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

두 가지 일반적인 멀티채널 데이터셋을 사용하여

본 연구에서는 D-CHAG 방법의 효과성을 검증하기 위해 두 가지 대표적인 다채널 데이터셋을 사용했습니다.식물의 초분광 이미지와 ERA5 기상 데이터 세트.

자기지도 마스크 예측에 사용된 식물 초분광 이미지 데이터는 오크리지 국립 연구소(ORNL)의 첨단 식물 표현형 연구소(APPL)에서 수집되었습니다.이 데이터 세트는 494개의 포플러 나무 초분광 이미지를 포함하고 있으며, 각 이미지는 400nm에서 900nm까지의 파장을 커버하는 500개의 스펙트럼 채널을 가지고 있습니다.

이 데이터셋은 주로 바이오매스 연구에 사용되며, 식물 표현형 분석 및 바이오에너지 연구에 중요한 자원입니다. 이 이미지들은 마스킹된 자기지도 학습에 사용되며, 이미지 슬라이스가 마스킹 토큰으로 활용됩니다. 모델의 목표는 누락된 콘텐츠를 예측하여 이미지의 기본 데이터 분포를 학습하는 것입니다. 특히, 이 데이터셋은 사전 학습된 가중치를 전혀 사용하지 않고 전적으로 자기지도 학습으로 학습되었으며, 이는 D-CHAG가 고채널 자기지도 학습 작업에도 적용 가능하다는 것을 보여줍니다.

또한,기상 예측 실험에서 연구팀은 ERA5 고해상도 재분석 데이터 세트를 사용했습니다.본 연구에서는 5개의 대기 변수(지위고도, 온도, 풍속 u 성분, 풍속 v 성분, 비습도)와 3개의 지표 변수(2m 높이 온도, 10m 높이 풍속 u 성분, 10m 높이 풍속 v 성분)를 선정하여 10개 이상의 기압층을 포함하고 총 80개의 입력 채널을 생성했습니다. 모델 학습에 적합하도록 원래 0.25° 해상도 데이터(770 × 1440)를 xESMF 툴킷과 이중선형 보간 알고리즘을 사용하여 5.625°(32 × 64) 해상도로 재분할했습니다.

이 모델의 과제는 500hPa 지위고도(Z500), 850hPa 온도(T850), 10m u 성분 풍속(U10)과 같은 미래 시간 단계의 기상 변수를 예측하여 시계열 예측 작업에서 D-CHAG 방법의 성능을 검증하는 것입니다.

D-CHAG: 계층적 집계와 분산 토큰화의 결합

요약하자면, D-CHAG 방법은 두 가지 독립적인 방법을 융합한 것입니다.

분산 토큰화 방법

순방향 전파 과정에서 각 TP 랭크는 입력 채널의 일부만 토큰화합니다.채널 집계 단계를 수행하기 전에 모든 채널에 걸쳐 교차 어텐션을 구현하기 위해 AllGather 작업을 실행해야 합니다. 이론적으로 이 방법은 GPU당 토큰화 계산 오버헤드를 줄일 수 있습니다.

계층적 교차 채널 집계

이 접근 방식의 주요 장점은 계층당 처리되는 채널 수가 줄어들기 때문에 교차 채널 어텐션 계층당 메모리 사용량이 감소한다는 것입니다.하지만 레이어 수를 늘리면 전체 모델 크기가 커지고 메모리 사용량도 증가합니다. 이러한 절충점은 채널 수가 많은 데이터셋에서 더 유리한데, 표준 크로스 채널 어텐션은 더 높은 추가 메모리 오버헤드를 발생시키기 때문입니다.

두 방법 모두 장점이 있지만 단점도 있습니다. 예를 들어, 분산 토큰화 방법은 TP 랭크 간에 높은 통신 오버헤드를 발생시키고 채널 수준에서의 과도한 메모리 소비 문제를 해결하지 못합니다. 반면 계층적 교차 채널 집계 방법은 GPU당 모델 매개변수 수를 증가시킵니다. D-CHAG 방법은 이 두 가지 방법을 분산 방식으로 결합한 것으로, 전체 아키텍처는 아래 그림과 같습니다.

구체적으로,각 TP 랭크는 전체 채널 부분집합에 있는 2차원 이미지를 토큰화합니다.각 GPU는 전체 채널의 일부만 보유하므로, 채널 집계는 이러한 채널에서 로컬로 수행됩니다. 이 모듈을 부분 채널 집계 모듈이라고 합니다. 각 TP 랭크 내에서 채널 집계가 완료되면 출력을 수집하고 크로스 채널 어텐션을 사용하여 최종 집계를 수행합니다. 순방향 전파 중에는 한 번의 AllGather 연산만 수행되며, 역방향 전파 중에는 각 GPU에 대한 관련 기울기만 수집되므로 추가적인 통신을 방지합니다.

D-CHAG 방식은 분산 토큰화와 계층적 채널 집계의 장점을 최대한 활용하면서 단점을 완화할 수 있습니다.연구진은 계층적 채널 집계를 TP 랭크 전체에 분산시킴으로써 AllGather 통신량을 TP 랭크당 단일 채널 처리로 줄여 역전파 중 통신이 필요 없도록 했습니다. 또한, 모델 깊이를 증가시켜 레이어당 채널 처리량 감소라는 이점을 유지하면서 부분 채널 집계 모듈을 통해 추가 모델 매개변수를 TP 랭크 전체에 분산시켰습니다.

본 연구는 두 가지 실행 전략을 비교했습니다.

* D-CHAG-L(선형 계층): 계층적 집계 모듈은 메모리 사용량이 적고 채널 수가 많은 상황에 적합한 선형 계층을 사용합니다.

* D-CHAG-C (크로스 어텐션 레이어): 크로스 어텐션 레이어를 사용하는데, 이는 계산 비용이 더 높지만 매우 큰 모델이나 채널 수가 극히 많은 경우 성능을 크게 향상시킵니다.

결과: D-CHAG는 채널 수가 많은 데이터셋에서 더 큰 모델을 학습하는 것을 지원합니다.

연구진은 D-CHAG를 구축한 후 모델의 성능을 검증하고, 초분광 영상 및 날씨 예측 작업에서 모델의 성능을 추가로 평가했습니다.

모델 성능 분석

다음 그림은 서로 다른 부분 채널 집적 모듈 구성에서 D-CHAG의 성능을 보여줍니다.

*이 그림은 1.7B 파라미터 모델에 대해 서로 다른 부분 채널 집합 모듈 구성에서 TP 기준선만 사용했을 때와 비교하여 GPU당 성능 향상을 보여줍니다.*

* Tree0은 일부 집계 모듈에 집계 수준이 하나만 있음을 나타내고, Tree2는 두 수준을 나타내는 식입니다.

* 접미사 -C와 -L은 사용된 레이어 유형을 나타냅니다. -C는 모든 레이어가 크로스 어텐션임을 나타내고, -L은 모든 레이어가 리니어 어텐션임을 나타냅니다.

결과는 다음과 같습니다.

512채널 데이터의 경우, 단일 레이어 크로스 어텐션 레이어를 사용하는 성능은 기준선보다 약간 낮지만, 1024채널 데이터의 경우 약 60%만큼 성능을 향상시킬 수 있습니다.

계층 구조가 깊어질수록 512채널 데이터에서도 상당한 성능 향상을 이룰 수 있는 반면, 1024채널 데이터의 성능은 비교적 안정적으로 유지됩니다.

계층 구조가 얕더라도 선형 레이어를 사용하면 512채널 및 1024채널 이미지에서 성능 향상을 얻을 수 있습니다. 실제로 가장 우수한 성능은 채널 집계 레이어가 하나만 포함된 D-CHAG-L-Tree0에서 나타납니다. 집계 레이어를 추가하면 모델 매개변수가 증가하고 메모리 오버헤드가 커집니다. 512채널의 경우 레이어 수를 늘리는 것이 유리해 보이지만, 두 채널 크기 모두에서 선형 레이어를 하나만 사용하는 것이 더 깊은 구조보다 우수한 성능을 보입니다.

D-CHAG-C-Tree0는 GPU가 두 개일 때는 성능에 약간의 부정적인 영향을 미치지만, GPU를 여덟 개로 늘리면 60%의 성능 향상을 이룰 수 있습니다.

식물 초분광 이미지의 자기지도 마스크 예측

아래 그림은 초분광 식물 이미지 마스크 오토인코더 적용에서 기준 방법과 D-CHAG 방법의 훈련 손실을 비교한 것입니다. 결과는 다음과 같습니다.훈련 과정에서 단일 GPU 구현의 훈련 손실 성능은 D-CHAG 방식(두 개의 GPU에서 실행)의 성능과 매우 유사한 것으로 나타났습니다.

*초분광 식물 이미지 마스크 오토인코더 응용 분야에서 기준선 및 D-CHAG 방법의 훈련 손실*

오크리지 국립 연구소 분자 및 세포 영상 그룹의 선임 연구원인 래리 요크는 D-CHAG가 식물 과학자들이 이미지에서 직접 식물의 광합성 활동을 측정하는 것과 같은 작업을 신속하게 완료하는 데 도움이 될 수 있으며, 시간 소모적이고 힘든 수동 측정을 대체할 수 있다고 말했습니다.

날씨 예보

연구진은 ERA5 데이터셋을 사용하여 30일간의 날씨 예측 실험을 수행했습니다. 아래 그림은 날씨 예측 응용 분야에서 기준 방법과 D-CHAG 방법의 세 가지 테스트 변수에 대한 훈련 손실과 RMSE를 비교합니다.

*기상 예측 응용 분야에서 기준선 및 D-CHAG 방법의 세 가지 테스트 변수에 대한 훈련 손실 및 RMSE*

아래 표는 RMSE, MSE 및 피어슨 상관계수(wACC)를 포함하여 7일, 14일 및 30일 예측 작업에 대한 모델의 최종 비교 결과를 보여줍니다.

*7일, 14일, 30일 예측 작업에서 단일 GPU 학습과 비교한 D-CHAG 방법의 MSE, RMSE 및 wACC의 백분율 변화(% Δ).*

전반적으로 그래프와 표를 보면 훈련 손실은 기준 모델과 매우 일관성이 있으며, 다양한 지표의 편차는 최소화되었습니다.

모델 크기에 따른 성능 확장성

아래 그림은 TP가 필요한 채널 구성을 가진 세 가지 모델 크기에 대해 TP만 사용하는 경우와 비교하여 D-CHAG 방법의 성능 향상을 보여줍니다.

*D-CHAG 방법을 TP와 결합했을 때 TP만 사용했을 때와 비교하여 7B, 15B 및 26B 파라미터 모델에서 GPU당 성능이 향상되었습니다.*

결과는 다음과 같습니다7B 매개변수 모델의 경우,부분 채널 집계 모듈에서 선형 레이어를 사용하면 30%에서 70%까지 성능 향상을 얻을 수 있는 반면, 크로스 어텐션 레이어를 사용하면 10%에서 60%까지 성능 향상을 얻을 수 있습니다.15B 매개변수 모델의 경우,성능 향상은 20%에서 50%를 초과합니다.26B 파라미터 모델의 성능 향상은 10%와 30% 사이입니다.

또한, 모델 크기가 고정된 경우 채널 수가 증가할수록 성능 향상이 더욱 두드러집니다. 이는 주어진 아키텍처에서 채널 수를 늘려도 변환기 블록의 계산 비용은 증가하지 않지만, 토큰화 및 채널 집계 모듈의 작업 부하는 증가하기 때문입니다.

반면, TP 단독으로는 26개의 파라미터와 256개의 채널을 가진 이미지를 학습시킬 수 없지만, D-CHAG 방식은 80% 미만의 가용 메모리를 사용하여 26개의 파라미터와 512개의 채널을 가진 모델을 학습시킬 수 있습니다. 이는 D-CHAG 방식이 채널 수가 많은 데이터셋에서 더 큰 모델을 학습시키는 것을 지원할 수 있음을 보여줍니다.

ViT: 시각 AI - 지각 모델에서 일반 시각 기반 모델까지

지난 10년간 컴퓨터 비전 모델은 주로 "단일 작업 최적화"에 초점을 맞춰 왔습니다. 즉, 분류, 탐지, 분할, 재구성 등이 독립적으로 발전해 왔습니다. 그러나 트랜스포머 아키텍처가 자연어 처리 분야에서 GPT와 BERT 같은 핵심 모델을 탄생시킨 것처럼, 컴퓨터 비전 분야에서도 유사한 패러다임 전환이 일어나고 있습니다. 바로 특정 작업에 특화된 모델에서 범용 비전 핵심 모델로의 전환입니다. 이러한 흐름 속에서 비전 트랜스포머(ViT)는 비전 핵심 모델의 중요한 기술적 기반으로 여겨지고 있습니다.

Vision Transformer(ViT)는 컴퓨터 비전 작업에 Transformer 아키텍처를 본격적으로 도입한 최초의 모델입니다. ViT의 핵심 아이디어는 이미지를 패치 토큰의 시퀀스로 처리하고, 합성곱 신경망의 지역 수용 영역 모델링을 자기 주의 메커니즘으로 대체하는 것입니다. 구체적으로, ViT는 입력 이미지를 고정 크기의 패치로 나누고, 각 패치를 임베딩 토큰으로 매핑한 다음, Transformer 인코더를 통해 패치 간의 전역적 관계를 모델링합니다.

기존 CNN과 비교했을 때, ViT는 과학 데이터에 특히 유리한 장점을 가지고 있습니다. 고차원 다중 채널 데이터(예: 원격 탐사, 의료 영상, 분광 데이터)에 적합하고, 비유클리드 공간 구조(예: 기후 격자 및 물리장)를 처리할 수 있으며, 채널 간 모델링(서로 다른 물리 변수 간의 결합 관계)에도 적합합니다. 이는 D-CHAG 논문에서 다루는 핵심 문제이기도 합니다.

위 연구에서 언급된 시나리오 외에도 ViT는 더욱 다양한 시나리오에서 핵심 가치를 입증하고 있습니다. 2025년 3월, 베이징대학교 국제병원 피부과 과장인 한강원 박사 연구팀은 AcneDGNet이라는 딥러닝 알고리즘을 개발했습니다. 이 알고리즘은 비주얼 트랜스포머와 컨볼루션 신경망을 통합하여 더욱 효율적인 계층적 특징 테이블을 생성함으로써 더욱 정확한 등급 분류를 가능하게 합니다. 전향적 평가 결과, AcneDGNet의 딥러닝 알고리즘은 초보 피부과 전문의보다 정확할 뿐만 아니라 숙련된 피부과 전문의와 동등한 수준의 정확도를 보여주었습니다. 다양한 의료 환경에서 여드름 병변을 정확하게 감지하고 심각도를 판단할 수 있어, 온라인 상담과 오프라인 진료 모두에서 피부과 전문의와 환자가 여드름을 진단하고 관리하는 데 효과적으로 도움을 줄 수 있습니다.

논문 제목:

온라인 및 오프라인 의료 환경에서 중국 인구를 대상으로 한 여드름 병변 탐지 및 중증도 등급 분류 모델 평가
서류 주소:

https://www.nature.com/articles/s41598-024-84670-z

산업적 관점에서 볼 때, Vision Transformer는 시각 AI가 지각 모델에서 범용 시각 기반 모델로 진화하는 데 있어 중요한 전환점을 의미합니다. 통합된 Transformer 아키텍처는 모달 간 융합, 확장성, 시스템 수준 최적화를 위한 보편적인 기반을 제공하여 시각 모델을 과학 분야 AI의 핵심 인프라로 만들어 줍니다. 앞으로 ViT를 둘러싼 병렬화, 메모리 최적화, 다중 채널 모델링 기능은 시각 기반 모델의 산업적 도입 속도와 규모를 결정하는 핵심 경쟁력 요소가 될 것입니다.

참고문헌:
1.https://phys.org/news/2026-01-empowering-ai-foundation.html
2.https://dl.acm.org/doi/10.1145/3712285.3759870
3.https://mp.weixin.qq.com/s/JvKQPbBQFhofqlVX4jLgSA