화웨이가 AI 모델 경량화 기술을 공개했다. [사진: 셔터스톡]
화웨이가 AI 모델 경량화 기술을 공개했다. [사진: 셔터스톡]

[디지털투데이 AI리포터] 화웨이가 인공지능(AI) 모델을 경량화해 고가의 하드웨어 없이도 강력한 성능을 유지할 수 있는 양자화 기술 'SINQ'(Sinkhorn-Normalized Quantization)를 개발했다.

6일(현지시간) 온라인 매체 기가진은 SINQ가 AI 모델의 메모리 사용량을 60~70% 줄이면서도 성능 저하를 최소화한다고 전했다. 화웨이의 스위스 연구센터가 개발한 SINQ는 기존 양자화 기법의 한계를 극복한 것이 특징이다.

일반적인 양자화는 AI 모델의 메모리 사용량을 줄이지만, 성능 저하를 피하기 어렵다. 그러나 SINQ는 이중 축 스케일링(Dual-Axis Scaling)과 싱크혼-크노프 정규화(Sinkhorn-Knopp Normalization)라는 혁신적인 기술을 도입해 메모리 절감과 성능 유지를 동시에 실현했다. 

이 기술을 활용하면 대규모 AI 모델도 저가 소비자용 GPU에서 실행할 수 있다. 예를 들어, 엔비디아 RTX 4090 같은 GPU에서도 고성능 AI 모델을 구동할 수 있어, 데이터센터 운영 비용을 크게 절감할 수 있을 전망이다.

션 가오 AI 컨설턴트에 따르면, 기존에는 엔비디아 A100(1만9000달러) 또는 H100(3만달러) 같은 고가 GPU가 필요했지만, SINQ를 적용하면 저가 하드웨어에서도 강력한 AI 성능을 유지할 수 있다.

SINQ는 오픈소스로 공개되며, 허깅페이스와 깃허브에서 다운로드 가능하다. 이는 AI 하드웨어의 장벽을 낮추고, 대규모 언어 모델(LLM)의 상업적 활용을 가속화할 기술로 주목받고 있다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사