HPE는 리더십급 ‘HPE 크레이 슈퍼컴퓨팅 EX’ 설루션과 대규모 언어 모델(LLM) 학습, 자연 언어 프로세싱(NLP) 및 멀티 모달 모델 학습에 최적화된 시스템 2종을 포함한 새로운 HPC 및 인공지능(AI) 인프라 포트폴리오를 발표했다.
HPE 크레이 슈퍼컴퓨팅 EX 시스템을 기반으로 하는 전체 리더십급 HPC 포트폴리오의 신제품은 세계의 난제 해결을 맡은 연구 기관과 소버린 AI 이니셔티브를 개발하는 정부 기관을 위해 설계되었다. 이 포트폴리오는 100% 팬리스 직접 수냉 방식(Fanless DLC) 시스템 아키텍처를 기반으로 하며 컴퓨팅 노드, 네트워킹, 스토리지를 포함한 HPE 슈퍼컴퓨팅 설루션의 모든 레이어에 걸쳐 새로운 소프트웨어 오퍼링으로 보완된다.
단일 캐비닛에서 최대 9만 8304개의 코어를 제공할 수 있는 HPE 크레이 슈퍼컴퓨팅 EX4252 2세대 컴퓨팅 블레이드(HPE Cray Supercomputing EX4252 Gen 2 Compute Blade)는 슈퍼컴퓨팅을 위한 강력한 원랙 유닛 시스템을 구현하는 제품이다. 8개의 5세대 AMD 에픽(EPYC) 프로세서를 탑재한 이 컴퓨팅 블레이드는 CPU 집적도의 이점을 제공하여 고객이 동일한 공간 내에서 더 높은 성능의 컴퓨팅을 실현할 수 있도록 지원한다. HPE Cray 슈퍼컴퓨팅 EX4252 2세대 컴퓨팅 블레이드는 2025년 봄에 출시될 예정이다.
슈퍼컴퓨팅 워크로드를 완료하는 데 걸리는 시간을 단축하기 위해 HPE 크레이 슈퍼컴퓨팅 EX154n 가속기 블레이드(HPE Cray Supercomputing EX154n Accelerator Blade)는 단일 캐비닛에 최대 224개 엔비디아 블랙웰(NVIDIA Blackwell) GPU를 탑재할 수 있다. 각 가속기 블레이드는 엔비디아 GB200 그레이스 블랙웰 NVL4 슈퍼칩(NVIDIA GB200 Grace Blackwell NVL4 Superchip)을 탑재하고 있으며, 엔비디아 NV링크-C2C를 통해 2개의 엔비디아 그레이스 CPU와 통합된 4개의 엔비디아 NV링크 연결 블랙웰(NVIDIA NVLink-connected Blackwell) GPU를 보유하고 있다. HPE 크레이 슈퍼컴퓨팅 EX154n 가속기 블레이드는 2025년 말에 공급될 예정이다.
차세대 엑사스케일 지원 HPE 인터커넥트 포트폴리오는 초당 400GB 속도의 네트워크 인터페이스 컨트롤러(NIC), 케이블 및 스위치를 제공한다. HPE 슬링샷 인터커넥트 400(HPE Slingshot interconnect 400)은 이전 세대보다 2배 빠른 회선 속도를 제공하는 동시에 자동화된 혼잡 관리 및 초저 테일 레이턴시(ultra-low tail latency)를 위한 어댑티브 라우팅과 같은 기능을 제공하여 고객이 더 적은 네트워크 인프라로 대규모 워크로드를 실행할 수 있도록 지원한다. 이 버전의 HPE 슬링샷은 2025년 하반기부터 HPE Cray 슈퍼컴퓨팅 EX 시스템 기반 클러스터에 적용될 예정이다
HPE 크레이 슈퍼컴퓨팅 스토리지 시스템 E2000은 이전 세대 대비 입출력(I/O) 성능이 두 배 이상 향상되었다. 대규모 슈퍼컴퓨터용으로 설계된 이 시스템은 오픈 소스 러스터(Lustre) 파일 시스템을 기반으로 하며, I/O 작업 중 유휴 시간을 줄여 CPU 및 GPU 기반 컴퓨팅 노드 모두의 활용도를 높일 수 있다. 이 HPC 스토리지 시스템은 2025년 초에 HPE 크레이 슈퍼컴퓨팅 EX 시스템에서 일반적으로 제공될 예정이다.
또한, HPE는 컴퓨팅 집약적 워크로드 실행의 사용자 경험을 개선하는 새로운 소프트웨어 제품을 출시한다. 현재 이용 가능한 HPE 크레이 슈퍼컴퓨팅 사용자 서비스 소프트웨어에는 고객이 시스템 효율성을 최적화하고 전력 소비를 조절하며 슈퍼컴퓨팅 인프라에서 다양한 워크로드를 유연하게 실행하는 데 도움이 되는 기능이 포함되어 있다.
한편, HPE는 고객이 대규모 고성능 AI 클러스터를 간소화할 수 있도록 지원하는 새로운 카테고리의 서버를 계속 선보이고 있다고 전했다. 자체 AI 모델을 학습하는 SP와 대기업을 위해 설계된 HPE 프로라이언트 컴퓨트 XD 서버는 대규모 AI 시스템 설치 및 배포에 대한 HPE의 전문성을 활용한다. HPE의 최첨단 제조 시설 내에서 설루션의 구축, 맞춤화, 통합, 검증, 전체 테스트를 지원하는 HPE 서비스 옵션을 활용하면 신속한 온사이트 배포가 가능하다.
HPE 프로라이언트 컴퓨트 서버에서만 사용 가능한 HPE iLO(Integrated Lights-Out) 관리 기술을 사용하면 일부 권한이 있는 직원이 서버에 대한 대역 외 원격 제어 액세스를 허용하여 표준 대역 내 네트워크 액세스보다 보안을 강화할 수 있다.
가격 대비 성능을 염두에 두고 최적화된 공냉 방식 HPE 프로라이언트 컴퓨트 XD680 서버는 복잡한 AI 학습, 튜닝 및 추론 워크로드를 처리하도록 설계되었다. HPE가 설계한 섀시에는 단일 컴팩트 노드에 8개의 인텔 가우디 3 AI 가속기가 탑재되어 있다. 인텔 가우디 3가 탑재된 HPE 프로라이언트 컴퓨트 XD680 서버는 2024년 12월에 출시될 예정이다.
HPE는 성능, 경쟁 우위, 에너지 효율성을 우선시하는 고객을 위해 대규모의 복잡한 AI 모델에 대한 학습을 가속화할 수 있는 엔비디아 GPU가 탑재된 새로운 버전의 HPE 프로라이언트 컴퓨트 XD685 서버가 출시될 예정이다. 이 서버는 5개의 랙 유닛 섀시에 8개의 엔비디아 H200 SXM 텐서 코어 GPU 또는 엔비디아 블랙웰 GPU로 구동되며, 수냉식 냉각 분야에서 수십 년간 쌓아온 HPE의 전문성을 활용하여 GPU, CPU 및 스위치를 효율적으로 냉각시킨다. HPE 프로라이언트 컴퓨트 XD685 서버의 엔비디아 HGX H200 8-GPU 버전은 2025년 초에 출시될 예정이며, 엔비디아 블랙웰 GPU 버전은 출시에 맞춰 선보일 예정이다.
HPE의 트리시 댐크로거(Trish Damkroger) HPC 및 AI 인프라 설루션 부문 수석 부사장 겸 총괄은 “소버린 AI 이니셔티브에 투자하는 서비스 제공업체와 국가들은 발견과 혁신을 가속화하기 위한 대규모 AI 학습을 가능하게 하는 중요한 백본으로 HPC를 점점 더 많이 고려하고 있다”면서 “고객은 세계 최고의 HPC 설루션과 완전 통합형 시스템 제공, 배포 및 서비스 분야에서 수십 년간 쌓아온 경험을 활용하여 더 빠르고 효율적으로 가치를 실현하면서 AI 시스템 배포를 빠르게 진행하기 위해 HPE에 주목하고 있다”고 밝혔다.