HyperAI초신경
Back to Headlines

머신 러닝과 INT로 네트워크 혼잡 예측

12시간 전

리액티브에서 예측적: 머신 러닝과 INT를 활용한 네트워크 혼잡 예측 데이터 센터 환경에서 네트워크 지연은 갑자기 발생할 수 있습니다. 분산 시스템, 마이크로 서비스, 또는 AI 학습 작업으로 인한 갑작스러운 트래픽 증가가 스위치 버퍼를 몇 초 만에 압도할 수 있는 것이죠. 이 문제는 단순히 무엇이 잘못되었는지를 아는 것이 아니라, 그것이 발생하기 전에 알아차리는 것입니다. 현재 텔레메트리 시스템은 네트워크 건강을 모니터링하는 데 널리 사용되지만, 대부분 리액티브 방식으로 작동합니다. 성능이 저하된 후에야 혼잡을 알리는 것이 일반적이며, 링크가 포화상태에 이르거나 큐가 가득 차면 이미 초기 진단의 시기를 놓친 채 원인 추적이 상당히 어려워집니다. 인-밴드 네트워크 텔레메트리(In-band Network Telemetry, INT)는 이러한 간극을 메우기 위해 생겨났습니다. INT는 패킷이 네트워크를 통과할 때 메타데이터를 태그하여 실시간으로 트래픽의 흐름, 큐의 형성, 지연의 증가, 그리고 각 스위치의 전송 처리 방법을 파악할 수 있게 합니다. 이는 신중하게 사용될 때 강력한 도구가 됩니다. 하지만 모든 패킷에 INT를 활성화하면 심각한 오버헤드가 발생하고, 많은 텔레메트리 데이터가 제어 평면으로 쏟아져 나와 실제로 필요하지 않은 정보까지 처리해야 하는 비용이 발생합니다. 항상 활성화된 텔레메트리의 문제점 INT는 네트워크 내부에서 일어나는 일을 상세하게 볼 수 있게 해줍니다. 큐 길이, 홉-바이-홉 지연, 타임스탬프 등을 패킷 경로에서 직접 추적할 수 있습니다. 그러나 이러한 텔레메트리 데이터는 각 패킷에 부담을 주며, 모든 트래픽에 적용되면 대역폭과 처리 능력을 크게 잠식하게 됩니다. 이를 해결하기 위해 많은 시스템들이 다음과 같은 단축 기법을 사용합니다: 샘플링: 전체 패킷 중 일부(예: 1%)만 텔레메트리 데이터로 태그합니다. 이벤트 트리거 텔레메트리: 이미 문제가 발생했을 때(예: 큐의 임계값을 초과했을 때) INT를 활성화합니다. 이러한 기법들은 오버헤드를 통제하는 데 도움이 되지만, 트래픽 증가의 초기 중요한 순간을 놓치게 됩니다. 이 단계는 네트워크 지연을 방지하려면 가장 이해해야 할 부분입니다. 예측적 접근 방식의 소개 리액티브 접근 방식의 한계를 극복하기 위해, 우리는 혼잡이 발생하기 전에 이를 예측하고 상세한 텔레메트리를 선제적으로 활성화하는 시스템을 설계하였습니다. 개념은 간단합니다: 트래픽이 언제 어디서 급증할지 예측하고, 그 영역과 시간에만 INT를 선택적으로 활성화합니다. 이렇게 하면 오버헤드는 최소화되면서도 실제 필요한 시기에 깊은 가시성을 얻을 수 있습니다. 시스템 설계 우리는 네트워크 모니터링을 더욱 지능화하기 위한 간단한 접근 방식을 마련하였습니다. 이는 필요한 시기에만 모니터링을 예측할 수 있게 해줍니다. 샘플링이나 이미 혼잡이 발생한 후에 대응하는 것 대신, 초기 징후를 포착하고 필요한 시기에만 고해상도 모니터링을 활성화하는 시스템을 구현했습니다. 1. 데이터 수집기 먼저, 네트워크의 다양한 포트를 통해 얼마나 많은 데이터가 이동하고 있는지를 모니터링하기 위해 네트워크 데이터를 수집합니다. sFlow를 사용하여 데이터를 수집하는데, 이는 네트워크 성능에 영향을 미치지 않고 중요한 메트릭을 수집하는 데 도움이 됩니다. 이러한 메트릭은 정기적으로 캡처되어 네트워크의 실시간 상태를 파악할 수 있게 합니다. 2. 예측 엔진 예측 엔진은 시스템의 가장 중요한 구성 요소입니다. 이는 Long Short-Term Memory (LSTM) 모델을 기반으로 만들어졌습니다. LSTM 모델을 선택한 이유는 네트워크 트래픽이 시간에 따라 패턴이 변화한다는 점 때문입니다. 이 모델은 각 데이터 포인트를 독립적으로 처리하는 간단한 모델과 달리, 과거의 기억을 활용하여 더 나은 단기 예측을 할 수 있습니다. 우리의 목표는 완벽한 예측이 아니라, 혼잡이 시작되기 전에 나타나는 비정상적인 트래픽 폭주를 포착하는 것이었습니다. LSTM은 최근 몇 분 동안의 트래픽 행동을 바탕으로 조기에 문제를 감지할 수 있는 충분한 정확도를 제공하였습니다. 3. 텔레메트리 컨트롤러 컨트롤러는 이러한 예측을 듣고 결정을 내립니다. 예측된 폭주가 경보 임계값을 초과하면, 시스템은 상세 모니터링 모드를 특정 트래픽 또는 포트에만 즉시 적용합니다. 또한 상황이 정상으로 돌아오면 INT를 비활성화하는 시점을 알고 있어, 불필요한 텔레메트리 데이터로 시스템을 범람시키지 않습니다. 4. 프로그래밍 가능한 데이터 플레인 마지막 구성 요소는 스위치 자체입니다. 우리 시스템에서는 P4 프로그래밍 가능한 BMv2 스위치를 사용하여 패킷 행동을 실시간으로 조정할 수 있게 하였습니다. 대부분의 시간 동안 스위치는 어떤 변경 없이 단순히 트래픽을 전달합니다. 그러나 컨트롤러가 INT를 활성화하면, 스위치는 특정 규칙에 맞는 패킷에 텔레메트리 메타데이터를 삽입합니다. 이 규칙은 컨트롤러가 설정하며, 필요한 트래픽만 대상으로 할 수 있습니다. 실험 설계 우리는 Mininet에서 iperf를 사용하여 생성된 합성 트래픽 추적 데이터로 LSTM 모델을 훈련시켰습니다. 훈련된 모델은 30초마다 예측을 수행하며, 예측 결과는 컨트롤러가 행동하도록 저장됩니다. 아래는 간단화된 예측 루프입니다: 매 30초마다: - latest_sample = data_collector.current_traffic() - sliding_window += latest_sample - 만약 sliding_window 크기가 window 크기 이상이면: - forecast = forecast_engine.predict_upcoming_traffic() - 만약 forecast > alert_threshold이면: - telem_controller.trigger_INT() 스위치는 즉시 특정 트래픽에 대해 텔레메트리 모드를 전환합니다. LSTM 선택 이유 네트워크 트래픽은 무작위가 아닌 구조를 가지고 있습니다. 시간대, 배경 로드, 배치 처리 작업 등과 연관된 패턴이 존재하며, LSTM은 이러한 시간적 관계를 효과적으로 포착할 수 있습니다. 각 데이터 포인트를 독립적으로 처리하는 간단한 모델과 달리, LSTM은 과거의 기억을 활용하여 더 나은 단기 예측을 할 수 있습니다. 우리의 용도에서는 정확한 숫자를 예측하는 것이 아니라, 최근 몇 분 동안의 행동을 바탕으로 비정상적인 증가를 감지하는 것이 중요하였습니다. LSTM은 노이즈에 과대 적합되지 않으면서도 예측적 텔레메트리를 트리거할 만큼의 충분한 정확도를 제공하였습니다. 평가 우리는 대규모 성능 벤치마크를 수행하지 않았지만, 프로토타입과 테스트 조건에서의 시스템 동작을 통해 이 설계 접근 방식의 실용적인 장점을 설명할 수 있습니다. 1. 선제적 대응 능력 예측적 시스템의 주요 장점 중 하나는 초기 문제를 신속히 포착할 수 있다는 점입니다. 리액티브 텔레메트리 솔루션은 대부분 큐의 임계값을 초과하거나 성능이 저하된 후에야 혼잡을 알리므로, 이미 늦은 시점에 대응하게 됩니다. 반면, 우리의 설계는 트래픽 트렌드를 기반으로 혼잡을 예측하고, 사전에 상세 모니터링을 활성화하여 운영자가 문제의 원인을 명확하게 파악할 수 있게 합니다. 2. 모니터링 효율성 이 프로젝트의 핵심 목표는 가시성을 저하시키지 않는 상태에서 오버헤드를 최소화하는 것이었습니다. 모든 트래픽에 INT를 적용하거나, 거칠게 샘플링하는 것 대신, 시스템은 예측이 문제를 나타낼 경우에만 단기간 동안 고해상도 텔레메트리를 선택적으로 활성화합니다. 비용 절감을 정량화하지는 않았지만, 설계는 INT를 집중적이고 단기간으로 유지함으로써, 항상 활성화된 텔레메트리나 리액티브 트리거링이 불가능한 효율성을 제공하였습니다. 텔레메트리 전략의 개념적 비교 우리는 오버헤드 메트릭을 기록하지 않았지만, 설계의 의도는 샘플링이나 리액티브 시스템보다 깊은 가시성을 제공하면서 항상 활성화된 텔레메트리의 비용의 일부만으로 이를 실현하는 것이었습니다. 다음은 고수준에서의 접근 방식 비교입니다: 샘플링: 트래픽의 일부만 모니터링하여 오버헤드를 줄이지만, 초기 징후를 놓칠 수 있습니다. 리액티브 텔레메트리: 이미 문제가 발생한 후에야 동작하여 초기 대응이 어렵습니다. 예측적 텔레메트리: 트래픽 트렌드를 기반으로 초기 징후를 포착하여 선제적으로 대응합니다. 이로 인해 오버헤드는 최소화되면서도 문제의 원인을 명확하게 파악할 수 있습니다. 결론 이 시스템은 네트워크 혼잡을 예측하고, 필요한 시기에만 상세한 모니터링을 활성화하여 초기 대응 능력을 향상시키고, 오버헤드를 최소화하였습니다. 이는 네트워크 관리자의 문제 해결 능력을 크게 향상시키는 동시에 시스템의 효율성을 유지할 수 있는 강력한 도구가 될 것입니다. 업계 평가 및 회사 프로파일 업계 전문가들은 이 접근 방식이 네트워크 관리의 새로운 패러다임을 제시한다고 평가합니다. 특히, 대규모 데이터 센터에서의 적용 가능성이 높다고 보고 있으며, 향후 네트워크 성능 최적화와 문제 해결의 핵심 기술로 자리매김할 것으로 예상됩니다. 본 연구는 여러 연구 기관과 기업들의 협력을 통해 이루어졌으며, 향후 확장 가능성을 고려한 설계로 알려져 있습니다.

Related Links