제임스 맥니븐(James McNiven) Arm 클라이언트 사업부문 부사장 [사진: 석대건 기자]
제임스 맥니븐(James McNiven) Arm 클라이언트 사업부문 부사장 [사진: 석대건 기자]

[디지털투데이 석대건 기자] Arm이 새로운 루멕스(Lumex) CSS 플랫폼이 모바일 AI 처리의 새로운 기준을 제시했다. 제임스 맥니븐(James McNiven) Arm 클라이언트 사업부문 부사장은 21일 인터뷰를 통해 루멕스 플랫폼은 단순한 성능 향상을 넘어 온디바이스 AI 시대를 여는 전환점이 될 것임을 강조했다.

맥니븐 부사장은 "루멕스를 통해 AI에 있어서 대대적인 개선을 이뤘다"며 "프리미엄 디바이스에서 온디바이스 AI를 확장 가능하게 제공하는 플랫폼"이라고 설명했다. 루멕스는 반도체 파트너사가 자사 요구사항에 맞게 CPU와 GPU를 다양하게 구성할 수 있는 유연성이 핵심이다.

Arm이 지난 9월 공개된 루멕스 CSS 플랫폼은 CPU, GPU, 시스템 IP로 구성된 통합 컴퓨팅 서브시스템이다. C1 CPU 클러스터 4종(울트라, 프리미엄, 프로, 나노)과 말리 G1 GPU, 그리고 새로운 시스템 인터커넥트와 MMU가 포함됐다. 맥니븐 부사장은 "CPU와 GPU뿐 아니라 시스템 IP도 업데이트해 CPU와 GPU에서 메모리로 빠르게 데이터를 액세스할 수 있다"고 설명했다.

C1 울트라(Ultra)는 전년 대비 온디바이스 성능이 25% 개선됐으며, 기존 코텍스-X(Cortex-X)를 대체한다. C1 프리미엄(Premium)은 울트라와 비슷한 성능을 35% 작은 크기로 구현해 서브 플래그십 디바이스를 겨냥했다. 

이러한 CPU 라인업 유연한 구성에 대해 맥니븐 부사장은 "파트너사가 필요에 따라 제품의 종류와 수량을 매우 유연하게 선택해서 구성할 수 있다"며 "고객사가 가진 면적 제한, 예산, 원하는 성능 수준과 효율성 수준 등 다양한 니즈에 맞춰 옵션을 제공한다"고 설명했다.

가장 주목할 변화는 SME2(Scalable Matrix Extension 2) 통합이다. SME2는 AI 기능 수행의 핵심인 행렬 연산을 가속화하는 엔진으로, CPU에 내재화돼 레이턴시가 낮고 CPU의 보안 규정을 그대로 적용할 수 있다. 맥니븐 부사장은 "SME2를 통해 AI 부문에서 5배 성능과 3배 효율로 이어질 수 있다"고 강조했다. 

◆CPU·GPU 유연한 구성...파트너사 맞춤형 제공

루멕스 플랫폼을 활용하면 디바이스 사용자는 일상적인 앱 사용에서 AI 성능 향상을 체감하게 된다. 음성인식 워크로드는 SME2 적용 시 4.7배 빨라져 음성 명령 처리가 거의 실시간으로 이뤄진다. 젬마 3(Gemma 3) 모델의 이미지 인코딩은 4.7배, 오디오 생성은 2.8배 성능이 개선됐다. 인스타그램, 게임, 유튜브, 크롬 등 실제 사용 사례에서도 성능 향상과 전력 절감을 확인했다고 Arm은 설명했다.

또 게임 환경에서는 말리 G1 GPU의 레이 트레이싱 성능이 2배 개선돼 더욱 사실적인 조명과 그림자 효과를 구현한다. 맥니븐 부사장은 "레이 트레이싱 유닛이 독립 아일랜드로 구성돼 사용하지 않을 때는 셧다운되어 전력 소모가 0이 된다"고 말했다. 음성 인식 같은 AI 작업에서는 불필요한 그래픽 기능이 자동으로 비활성화돼 배터리 효율을 높이는 방식이다.

맥니븐 부사장은 "워크로드별로 크기와 특성이 다르기 때문에 AI를 CPU, NPU, GPU 중 어디서 처리할지는 실험을 통해 최적화해야 한다"고 강조했다. 이어 "개발자들이 CPU를 선호하는 이유는 유연하기 때문"이라며 "Arm CPU는 스마트폰의 표준이어서 앱 개발자들이 하나의 엔진만 타겟팅하면 되는 반면, NPU는 각 포트별로 커스터마이징이 필요하다"고 덧붙였다.

Arm 루멕스(Lumex) CSS 플랫폼 구조 [사진: Arm]
Arm 루멕스(Lumex) CSS 플랫폼 구조 [사진: Arm]

◆맥니븐 Arm 부사장 "내년 뉴럴 테크놀로지 GPU 탑재 기대해달라"

AI 성능 지표에 대한 Arm은 다르게 접근한다. 무조건 높다고 좋다는 게 아니다. 맥니븐 부사장은 "TOPS가 항상 가장 중요한 지표는 아니다"라며 "레이턴시나 보안 등 다양한 고려 요소가 있다"고 말했다.

SME2는 유닛당 2~4 TOPS(int8 기준)를 제공하며, 유닛 수가 늘어나면 주파수(2~3GHz)에 따라 2~6 TOPS 범위에서 성능 지원이 가능하다. GPU보다 낮은 TOPS를 보이지만, 특정 사용 사례에서는 GPU보다 빠르다. 

맥니븐 부사장은 "작은 네트워크에서는 CPU의 레이턴시가 거의 없는 반면, GPU는 데이터를 전달하고 실행을 시작하는 시간이 필요하다"며 "낮은 TOPS와 낮은 레이턴시가 높은 TOPS와 높은 레이턴시를 이기는 경우가 있다"고 설명했다.

현재 Arm은 플레이드AI(PlaidAI)와의 협업을 통해 알리페이와 타오바오에서 이미 SME2가 지원되고 있다. 맥니븐 부사장은 "주요 AI 프레임워크들과 긴밀하게 협력해 개발자들이 SME2와 같은 새로운 기술을 빠르게 활용할 수 있도록 하고 있다"고 밝혔다.

갤럭시 S26에 탑재될 것으로 알려진 엑시노스 2600의 SME2 적용 여부는 확인되지 않았다. 삼성전자과의 협력 관계에 대한 질문에 맥니븐 부사장은 "오늘 오전 마크 리(이종석 상무)와 SME2 협업 사례를 소개했지만, 엑시노스나 갤럭시 로드맵에 대해서는 언급할 수 없다"고 신중한 입장을 보였다.

인터뷰에 앞서 맥니븐 부사장은 이날 오전 열린 'Arm Unlocked(언락드) 서울 2025' 컨슈머 디바이스 트랙에서 이종석 삼성전자 MX사업부 AP개발팀 팀장(상무)과 온디바이스 AI 설계 등 AP 성능 개선의 방향에 대해 대담을 나눴다.

맥니븐 부사장은 한국 파트너들에게 "루멕스를 통해 모바일에서 차세대 AI 워크로드를 구동하는 데 있어서 최고의 효율성과 성능을 제공하는 것이 목표"라며 "개발자들이 가장 쉽게 우리 플랫폼을 채택할 수 있도록 하는 것이 중요하다"고 말했다. 이어 "내년 GPU에 추가될 뉴럴 테크놀로지(Neural Technology)의 인티저 8 TOPS 성능도 기대해달라"고 전했다.

키워드

#Arm
저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사