![자이프라 AMD 클러스터 [사진: 자이프라]](https://cdn.digitaltoday.co.kr/news/photo/202511/607462_562892_1652.png)
[디지털투데이 석대건 기자] AMD가 자이프라의 AI 모델 학습을 지원했다. AMD는 자이프라(Zyphra)가 AMD 인스팅트(Instinct) MI300X GPU와 펜산도(Pensando) 네트워킹을 활용해 ZAYA1 모델을 개발했다고 25일 밝혔다.
ZAYA1은 AMD GPU와 네트워킹 플랫폼으로 학습된 첫 대규모 전문가 혼합(Mixture-of-Experts, MoE) 파운데이션 모델이다. AMD ROCm 오픈 소프트웨어 스택도 활용됐다. 자이프라는 이를 기술 보고서를 통해 개발 과정을 공개했다.
ZAYA1 Base 모델은 추론, 수학, 코딩 영역에서 라마3(Llama 3) 8B와 올모E(OLMoE)를 능가했다. 큐원3(Qwen3) 4B, 젬마3(Gemma3) 12B와 견줄만한 성능도 입증했다고 회사는 전했다. 자이프라는 이번 결과가 AMD 인스팅트 GPU의 대규모 AI 워크로드 처리 능력을 보여준다고 전했다.
자이프라는 AMD, IBM과 협력해 AMD 인스팅트 GPU와 펜산도 네트워킹으로 구성된 대규모 학습 클러스터를 구축했다. 이 클러스터는 AMD와 IBM의 공동 엔지니어링 시스템을 기반으로 한다. IBM 클라우드의 고성능 패브릭과 스토리지 아키텍처가 결합됐다. 고비용의 전문가 활용이나 텐서 샤딩 없이 학습을 수행할 수 있게 됐다.
AMD 인스팅트 MI300X GPU는 192GB의 고대역폭 메모리를 탑재했다. 이는 전문가 활용이나 텐서 샤딩(tensor sharding) 같은 복잡한 절차 없이 학습 효율성을 높이는 원인이 됐다. 전체 모델 스택의 처리량이 증가했다. AMD 최적화 분산 I/O 활용으로 모델 저장 시간을 10배 이상 단축하고 학습 안정성과 효율성도 개선됐다.
에마드 바르숨(Emad Barsoum)은 AMD 인공지능 그룹 AI 및 엔지니어링 부사장은 "AMD는 가속 컴퓨팅 분야의 리더십을 통해 자이프라와 같은 혁신 기업이 AI의 한계를 확장할 수 있도록 지원하고 있다"며 "이번 성과는 복잡한 대규모 모델 학습에 있어 AMD 인스팅트 GPU와 펜산도 네트워킹이 제공하는 유연성과 성능을 보여주는 중요한 사례"라고 말했다.
크리틱 푸탈라스(Krithik Puthalath) 자이프라 CEO는 "효율성은 자이프라의 핵심 철학으로, 모델 아키텍처 설계와 학습 및 추론 알고리즘 개발, 최적의 가격 대비 성능을 제공하는 하드웨어 선택까지 모든 과정에 반영되어 있다"고 말했다.
이어 "이번 성과는 모델 아키텍처를 반도체 및 시스템과 함께 공동 설계하는 접근 방식이 얼마나 강력한지 보여준다"며 "자이프라는 AMD, IBM과의 협력을 더욱 강화해 차세대 첨단 멀티모달 파운데이션 모델을 구축하게 될 것을 기대하고 있다"고 덧붙였다.

