AI는 데이터 센터 내부와 데이터 센터 간 네트워크에 어떤 영향을 미칠까요? Ciena의 Brian Lavallée 선임 이사가 AI의 잠재력을 최대한 실현하는 데 있어 고성능 네트워크의 중요성에 대해 설명합니다.

AI(인공 지능)와 관련된 많은 과대광고가 있지만, AI가 실재하며 이미 다양한 산업을 크게 재편하고 있으며 이전에는 상상할 수 없었던 수준의 혁신과 효율성을 주도하고 있다는 사실에는 이견이 없습니다. 그러나 증기기관, 전기 및 인터넷과 같은 파괴적인 기술 도입과 마찬가지로 AI도 고유한 과제와 기회를 가져올 것입니다.

Artificial Intelligence a new technology inflection point

그림 1: 새로운 기술 변곡점인 AI(인공 지능)

AI 인프라가 직면한 난관은 스토리지, 컴퓨팅 및 네트워크 인프라를 비용 효과적으로 확장하는 동시에 에너지 소비의 엄청난 증가와 장기적인 지속 가능성 문제를 해결하는 것입니다. 이러한 난관을 정확하게 이해하기 위해 AI 인프라를 호스팅하는 데이터 센터 내부 네트워크에 AI가 어떤 영향을 미치는지 살펴본 후, 장거리에서 데이터 센터를 연결하는 외부 네트워크로 논의를 확대해 보겠습니다.

인공 지능을 위한 데이터 센터 내부 네트워크

AI는 우리가 비즈니스와 개인 생활에서 매일 사용하는 기존 클라우드 서비스를 호스팅하는 데이터 센터 내부에서 만들어졌습니다. 그러나 AI 스토리지, 컴퓨팅 및 네트워크 인프라 요구 사항이 매우 복잡해졌습니다. 또한 널리 사용되는 ChatGPT와 같은 GenAI(생성형 AI) 애플리케이션의 기반 기술인 LLM(대규모 언어 모델) 학습과 같은 사용 사례에 적용되는 기존 클라우드 인프라에 대한 요구도 빠르게 증가했습니다. 전통적인 클라우드 인프라의 성공은 비용 효과성, 유연성 및 확장성에서 비롯되며, 이는 AI 인프라의 필수 속성이기도 합니다. 그러나 그림 2와 같이 AI에는 새롭고 광범위한 네트워크 성능 요구 사항이 필요합니다. 오늘날의 AI 인프라 기술은 대부분 폐쇄적이고 독점적이지만, 업계는 더욱 안전한 공급업체 공급망을 활용하여 더 빠른 혁신을 지원하는 광범위한 기술 생태계를 조성하기 위해 UEC(Ultra Ethernet Consortium)와 UALink(Ultra Accelerator Link) 프로모터 그룹과 같은 새로운 표준화 그룹을 만들기 위해 힘을 합쳤습니다.

Comparison of traditional cloud and AI infrastructure requirements 그림 2: 기존 클라우드와 AI 인프라 요구 사항 비교

DL(딥 러닝)과 인공 신경망을 활용하는 LLM 학습과 같은 AI 애플리케이션은 데이터 센터 내에서 방대한 양의 데이터를 400Gb/s 및 800Gb/s에서 향후 1.6Tb/s 이상으로 운영되는 고대역폭 및 낮은 지연 시간의 단거리 네트워크를 통해 전송해야 합니다. CPU(중앙 처리 장치) 및 GPU(그래픽 처리 장치)와 같은 맞춤형 AI 전용 프로세서가 개발되고 있는 것처럼, AI 인프라를 완전히 최적화하기 위해서는 네트워크 기술 혁신도 필요합니다. 여기에는 광 트랜시버, OCS(광 회로 스위치), 공동 패키지형 모듈, NPU(네트워크 처리 장치), 표준 기반 UEC 및 UALink 기반 플랫폼 그리고 기타 네트워킹 기술의 발전이 포함됩니다.

AI is enabled by high-performance networks within and between data centers

그림 3: 데이터 센터 내부 및 데이터 센터 간 고성능 네트워크로 지원되는 AI

이러한네트워크기술의발전으로 AI 성능문제가해결되겠지만관련공간과에너지소비가방대해지면서더많은데이터센터가건설되고상호연결될것입니다. 데이터센터내부와데이터센터간의전송거리에따라서로다른네트워크솔루션이필요합니다.

AI 캠퍼스 네트워크

AI 컴퓨팅 클러스터의 기본 요소인 최신 GPU 한 대는 1,000와트까지 소비할 수 있기 때문에 LLM 학습과 같은 목적으로 수만에서 수십만 개(또는 그 이상)가 상호 연결되면 관련 에너지 소비는 데이터 센터 사업자에게 엄청난 과제가 됩니다. 새로운 AI 인프라는 기존 데이터 센터 내에서 에너지와 공간을 빠르게 소비할 것입니다. 이에 따라 데이터 센터 간 거리를 10km 이내로 분리하는 방식으로 '캠퍼스'에 새로운 데이터 센터를 구축하면 지연 시간을 최소화하여 AI 애플리케이션 성능을 개선할 수 있습니다. 캠퍼스는 안정성, 지속 가능성 및 비용 효과성이 뛰어난 가용 에너지 근처에 위치해야 합니다. 캠퍼스 데이터 센터는 특정 비용, 전력, 대역폭, 지연 시간 및 거리에 최적화된 옵틱 기술을 사용하여 상호 연결되고 멀리 떨어진 데이터 센터와도 연결됩니다.

DCI(데이터 센터 상호 연결) 네트워크

AI 인프라가 신규 및 기존 데이터 센터에서 호스팅 되므로, 데이터 센터는 기존 클라우드 서비스에 대해 상호 연결된 것처럼 상호 연결되어야 합니다. 이는 업계 최초 Ciena WaveLogicTM 6 기술로 구현된 1.6Tb/s를 포함한 유사한 광 전송 솔루션을 사용하여 더 높은 속도로 달성될 것입니다. 얼마나 많은 새로운 트래픽이 발생하게 될까요? 시장 조사 기관 Omdia의 최근 분석에 따르면, 그림 4와 같이 2023년부터 2030년까지 월별 AI 강화 네트워크 트래픽은 약 120%(연평균 성장률)로 증가할 것으로 예상됩니다. 이는 앞으로 글로벌 네트워크가 감당해야 할 추가 트래픽의 양입니다.

Monthly AI enriched network traffic growth forecast from 2023 to 2030_source_Omdia

그림 4: 2023년~2030년 월별 AI 강화 네트워크 트래픽 증가 예측(출처: Omdia)

기업 측면에서 보면 경제성, 사내 AI 전문 지식의 격차 그리고 전력 및 공간 제약으로 인한 난관으로 인해 데이터와 애플리케이션을 클라우드로 마이그레이션 해야 하는 필요성이 점점 더 커질 것입니다. 클라우드 공급자가 AaaS(AI-as-a-Service) 및 GaaS(GPU-as-a-Service)를 제공함에 따라 클라우드에서 LLM 학습을 수행하려면 기업은 자체 건물과 클라우드 간은 물론 다른 클라우드 인스턴스 간에 방대한 양의 학습 데이터를 안전하게 전송할 수 있어야 합니다. 이것이 실현되면 더 동적이고 더 빠른 대역폭 상호 연결이 필요해지며 그 결과 더 많은 클라우드 교환 인프라가 필요하게 될 것입니다. 이는 통신사에게 새로운 수익 창출 기회를 의미합니다.

네트워크 에지에서 최적화된 AI 성능

LLM이 적절하게 학습되면 컴퓨팅, 스토리지 및 에너지 요구 사항 측면에서 훨씬 적은 운용 규모 내에서 허용 가능한 추론(즉, 실제 환경에서 AI 사용) 정확도를 제공하도록 최적화되고 '불필요한 부분을 가지치기'합니다. 이렇게 최적화된 AI 알고리즘은 에지로 푸시되어 LLM 학습을 호스팅하는 코어 데이터 센터의 부하를 경감하고 지연 시간을 줄이며 데이터를 로컬에서 호스팅하여 데이터 개인 정보 보호와 관련된 규정을 준수합니다. AI 스토리지 및 컴퓨팅 자산을 지리적으로 분산된 데이터 센터에 배치하면 사람이든 장치든 AI를 생성하고 소비하는 곳에서 더 가까운 위치에서 데이터를 처리하여 실시간에 가까운 AI 추론을 수행할 수 있습니다. 이는 상호 연결할 에지 데이터 센터가 더 많아진다는 의미입니다.

전력 소비와 지속 가능성 간 균형 조정

AI는 점점 더 빠른 속도로 발전하면서 새로운 기회와 해결해야 할 과제를 만들어내고 있습니다. 예를 들어 딥 러닝 및 인공 신경망과 관련된 AI 모델은 LLM 학습 단계에서 엄청난 양의 전력을 소비하는 것으로 악명이 높습니다. 이는 모델이 더욱 복잡해지면서 컴퓨팅, 스토리지 및 네트워킹 기능의 양이 지속적으로 증가함에 따라 더욱 늘어날 것입니다.

Ciena WaveLogic innovation constantly improves power and space savings per bit

그림 5: 비트당 전력 및 공간 절약을 지속적으로 개선하는 Ciena WaveLogicTM 혁신

AI 인프라 컴퓨팅과 스토리지는 이를 상호 연결하는 네트워크보다 훨씬 더 많은 전기 에너지를 소비하지만, 네트워크 대역폭 증가는 관련 전력 소비에 따라 선형적으로 확장할 수 없으므로 지속 가능하거나 비용 효과적이지 않습니다. 즉, 네트워크 기술은 AI 기능을 구현하는 데 매우 중요한 산업에서 '자신의역할을하기' 위해 비트당 전력 및 공간을 지속적으로 줄여야 합니다. 그림 5에서는 거침없는 Ciena WaveLogicTM 기술 진화를 통해 어떤 방식으로 스펙트럼 효율을 지속적으로 높이는 동시에 비트당 필요한 전력과 공간을 줄이는지 보여줍니다.

전송할 수 있는 경우에만 가치가 있는 AI 데이터

AI에 대한 과대광고가 있지만 AI는 다양한 산업 분야에서 전례 없는 혜택을 제공하여 비즈니스와 개인 생활에 긍정적인 영향을 미칠 것입니다. 그러나 AI의 급속하고 광범위한 도입은 컴퓨팅, 스토리지 및 네트워크 구성 요소를 아우르는 기본 인프라와 관련된 다양한 새로운 과제를 수반하고 있습니다. 이러한 과제를 성공적으로 해결하려면 광범위한 업계 간 혁신과 협력이 필요하며, AI LLM 학습을 호스팅하는 코어 데이터 센터 내부에서 AI 추론을 호스팅하는 에지 데이터 센터로 데이터를 안전하고 지속 가능하며 비용 효과적으로 전송할 수 있어야만 AI가 성공적으로 확장될 수 있기 때문입니다.