마이크로소프트(MS) [사진: 셔터스톡]
마이크로소프트(MS) [사진: 셔터스톡]

[디지털투데이 AI리포터] 마이크로소프트(MS) 리서치 인공지능(AI) 팀이 새로운 트랜스포머 기반 모델인 파이-1(phi-1)을 공개했다.

이 모델은 GPT-3.5의 매개 변수 1% 미만에 해당하는 13억개의 매개변수만 가진 소규모 언어 모델이나, 휴먼이벌(HumanEval) 테스트에서 GPT-3.5보다 우수한 성능을 보인 것으로 알려졌다. 

22일(현지시간) IT매체 기가진에 따르면 파이-1은 인터넷에서 수집한 60억개의 토큰 및 GPT-3.5에서 생성된 10억개의 토큰을 사용해 만들어졌다. 또 8개의 엔비디아 A100 칩을 사용해 단 나흘 동안 훈련됐다는 설명. 

마이크로소프트 리서치는 파이-1-스몰(phi-1-small)이라는 더 작은 모델도 개발했는데, 이 모델은 3.5억개의 매개변수만 가지고 있음에도 45%의 성능을 달성했다. 

이처럼 파이-1의 중요성은 모델 크기를 늘리는 것이 아닌 품질 개선을 통한 높은 성능 달성에 있다. 그러나 해커 뉴스는 파이-1에 대해 "이는 GPT가 생성한 고품질 합성 데이터 없이는 불가능했을 것"이라고 지적하기도 했다.

한편, AI 모델이 AI 모델의 데이터를 학습하는 과정에서 '데이터 오염'이 생겨 새로운 모델의 정확도가 감소할 수 있다는 우려도 제기됐다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사