![텐센트의 훈련 없는 AI 최적화 제안은 비용 절감 측면에서 매력적이지만, 모든 모델에 적용 가능한 보편적 기법이 될지는 미지수다. [사진: 셔터스톡]](https://cdn.digitaltoday.co.kr/news/photo/202510/598048_555433_747.jpg)
[디지털투데이 AI리포터] 중국 IT기업 텐센트가 인공지능(AI) 모델을 훈련 없이도 개선할 수 있는 '경험 기반 최적화' 기법을 제안하며, AI 학습의 패러다임을 바꿀 수 있을지 관심이 쏠리고 있다.
지난 16일(현지시간) 홍콩 사우스차이나모닝포스트(SCMP)에 따르면, 텐센트 AI 연구진은 대규모언어모델(LLM)이 반복적인 훈련 없이도 업무 경험을 통해 스스로 최적화될 수 있다는 내용의 논문을 공개했다. '훈련 없는 그룹 상대 정책 최적화(Training-Free Group Relative Policy Optimisation)'라는 제목의 이 논문은 오픈 액세스 리포지토리 arXiv에 게재되며 주목받고 있다.
해당 논문에 따르면 기존 강화학습 방식은 AI 모델의 파라미터를 지속적으로 조정해야 하는데, 이는 시간과 비용이 많이 드는 과정이다. 하지만 텐센트 연구진은 AI가 스스로 문제 해결 규칙과 경험을 축적하는 '경험 라이브러리'를 구축하면, 추가 훈련 없이도 성능을 개선할 수 있다고 주장했다.
연구진은 이 기법을 딥시크(DeepSeek)의 V3.1-터미너스 모델에 적용해 알리바바 클라우드의 큐웬2.5-32B-인스트럭트 모델보다 더 나은 수학적 추론 및 웹 검색 성능을 확보했다고 밝혔다. 또한, 이를 위해 100개의 추가 훈련 예시만 필요했으며, 비용은 18달러로 기존 방식(1만달러) 대비 극도로 저렴했다.
그러나 일부 AI 연구자들은 이 기법의 실효성에 의문을 제기했다. 실험에서 사용된 모델의 파라미터 크기가 달라 직접적인 비교가 어렵다는 지적이다.
연구진도 논문에서 이러한 경험 기반 최적화가 특정 모델에서는 오히려 성능을 저하시킬 수 있다고 인정했으며, "이 방법이 효과적이려면 모델 자체의 추론 능력이 강력해야 한다"라며 "경험 기반 최적화가 모든 모델에 적용 가능한 보편적 기법은 아니다"라고 밝혔다.

