생성형 인공지능(AI)에게 '2026학년도 대학수학능력시험'을 직접 풀게 한 연구 결과 주목받는다. [사진: Reve AI]
생성형 인공지능(AI)에게 '2026학년도 대학수학능력시험'을 직접 풀게 한 연구 결과 주목받는다. [사진: Reve AI]

[디지털투데이 홍진주 기자] 지난 11월 13일 치러진 2026학년도 대학수학능력시험 문제 풀이를 주요 글로벌 인공지능(AI) 모델에 맡기면 어느 정도의 성적이 나올까. 

순천향대학교 컴퓨터소프트웨어공학과 소속 구유겸 학생은 수능 당일 공개된 GPT-5.1을 포함해 구글 제미나이 2.5 플래시 등 최신 대형 모델 및 소형·구형 모델 15종을 대상으로 2026년도 실제 수능 주요 과목 문제를 풀어보게 한 결과를 깃허브에 공개했다.

이번 실험에는 오픈AI, 구글, 앤트로픽, xAI, 딥시크의 최신 LLM 15종이 활용됐다. 오픈AI는 GPT-5.1, GPT-5.1 인스턴트, GPT-5.1 코덱스, GPT-미니, GPT-나노, GPT-4o 등 총 6종, 구글은 제미나이 2.5 프로·플래시·플래시 라이트 3종이 투입됐다. 여기에 앤트로픽 클로드 소넷 4.5와 하이쿠 4.5, xAI의 그록 4·그록 4 패스트, 딥시크 V3.2-Exp의 사고형(Thinking) 및 비사고형(Non-Thinking)모델까지 포함됐다. 

수능 과목 구성에 맞춘 평가 체계도 실제 시험과 동일하게 설계했다. 국어·수학·영어·한국사에 더해 탐구 영역의 물리 I 과 화학 I 까지 포함해 총 450점 만점 기준으로 채점했으며, 국어와 수학은 공통과목과 함께 선택과목(국어는 화법과 작문·언어와 매체, 수학은 확률과 통계·미적분·기하) 각각의 성적을 합산해 평균 점수를 산출했고, 영어와 한국사는 전 문항을 그대로 반영했다.

채점 방식 역시 최대한 실제 수험 환경을 구현했다. 각 모델에는 문제의 전체 텍스트가 주어졌으며, 선택형 문항에서는 보기 중 하나를 고르게 했고 단답형은 정확한 숫자 입력을 요구했다. 이후 모델이 최종적으로 제시한 답안을 한국교육과정평가원의 공식 정답과 대조해 점수를 매기는 방식으로 실험은 이루어졌다. 다만 딥시크의 경우, 이미지 인식을 지원하지 않아 모든 문항은 텍스트 기반으로 풀이됐다.

국어 영역, GPT-5.1·제미나이 2.5 프로 '독주'…중하위 모델과 격차 뚜렷

[사진: 깃허브(@hehee9 ​​​​​)]
[사진: 깃허브(@hehee9 ​​​​​)]

국어 영역에서는 GPT-5.1이 공통·선택 평균 98점을 기록하며 최고 수준의 성적을 나타냈다. GPT-5.1 코덱스(97점), GPT-5 미니(90.5점)도 뒤를 이었으나, 소형 모델 GPT-5 나노는 45점으로 최하위권에 머물렀다.

구글 제미나이 시리즈는 상위권에 고르게 분포했다. 특히 제미나이 2.5 프로는 99점으로 사실상 최상위 성적을 기록했고, 플래시(96점), 플래시 라이트(81.5점)가 뒤를 따랐다.

클로드 소넷 4.5는 97.5점으로 상위권에 올랐고, 소형 모델 하이쿠 4.5는 70점으로 중위권을 형성했다. xAI 그록 4(88.5점)와 그록 4 패스트(84점), 딥시크 V3.2-Exp 사고형(89.5점)·비사고형(84.5점)은 대체로 중위권 성적을 기록했다.

전체적으로 GPT-5.1과 제미나이 2.5 프로가 국어 영역에서 독보적인 성능을 보였고, 소형 모델일수록 점수가 크게 떨어지는 경향이 확인됐다.

수학 영역, GPT-5.1·클로드 소넷 4.5 '만점'…상위권 경쟁 치열

[사진: 깃허브(@hehee9 ​​​​​)]
[사진: 깃허브(@hehee9 ​​​​​)]

수학에서는 GPT-5.1과 클로드 소넷 4.5가 각각 100점을 기록하며 공동 1위를 차지했다. GPT-5.1 코덱스(96점), GPT-5 미니(94.7점), GPT-5 나노(94.7점)도 높은 정확도를 보였고, GPT-5.1 인스턴트는 88점으로 중위권에 머물렀다. 반면 구형 모델인 GPT-4o는 56.3점으로 주요 모델 중 가장 낮은 점수를 기록했다.

구글 제미나이 시리즈는 전반적으로 고른 성적을 냈다. 제미나이 2.5 프로(94.7점)를 포함해 플래시(94.7점), 플래시 라이트(88점) 모두 상·중위권에 자리했다.

xAI의 그록 4와 그록 4 패스트는 모두 96점을 기록하며 높은 연산·추론 성능을 보여줬다. 딥시크 V3.2-Exp도 사고형(98.7점)이 상위권, 비사고형(76점)은 중위권 수준으로 나타났다.

전체적으로 수학 영역은 최상위 모델 간 경쟁이 가장 치열한 과목이었으며, 중·소형 모델에서도 국어보다 높은 점수를 받는 경향이 나타났다.

영어 영역, 대부분 90점대… GPT-5.1·GPT-5 미니는 '만점'

[사진: 깃허브(@hehee9 ​​​​​)]
[사진: 깃허브(@hehee9 ​​​​​)]

영어 영역에서는 GPT-5.1과 GPT-5 미니가 100점을 기록하며 전 모델 중 최고 성적을 냈다. GPT-5.1 코덱스(97점)와 GPT-5.1 인스턴트(97점)도 뒤를 이어 GPT 시리즈 전체가 영어에서 매우 강한 모습을 보였다.

구글 제미나이 2.5 프로와 클로드 소넷 4.5 역시 97점을 기록하며 상위권에 올랐다. xAI 그록 4도 97점으로 높은 정확도를 보여줬다.

중·소형 모델에서는 성적 차이가 비교적 작았다. 제미나이 2.5 플래시(95점), 그록 4 패스트(94점), GPT-5 나노(93점), 딥시크 V3.2-Exp 사고형(93점)도 모두 90점대 성적을 기록했다. 다만 딥시크 V3.2-Exp 비사고형은 89점으로 유일하게 80점대에 머물렀고, 클로드 하이쿠 4.5도 90점으로 상대적으로 하위권을 형성했다.

전체적으로 영어는 전 모델이 비교적 고득점을 기록한 과목으로, GPT 계열의 우위가 가장 두드러진 영역으로 분석됐다.

한국사 만점 속출…물리·화학 추론 능력은 아직 숙제

[사진: 깃허브(@hehee9 ​​​​​)]
[사진: 깃허브(@hehee9 ​​​​​)]

한국사 영역에서는 다수의 모델이 만점(50점)을 기록한 반면, 물리 I 영역(50점 만점)에서는 최고 득점이 GPT-5.1의 38점에 그쳐, LLM의 강점이 지식 기반 암기 영역과 추론/문제 해결 영역에서 뚜렷한 차이를 보이는 것으로 나타났다. 또한 화학 I 영역(50점 만점)에서는 GPT-5.1, 제미나이 2.5 프로·플래시, 그록 4 등이 최고 47점을 기록하며 복잡한 개념 이해와 문제 풀이 능력에서 우수한 성적을 보였다. 다만, GPT-4o는 11점으로 최하위를 기록하며 대형 모델과의 가장 큰 점수 차이를 보였다.

2026 수능, GPT-5.1 '왕좌' 등극…433점으로 압도적 1위

[사진: 깃허브(@hehee9 ​​​​​)]
[사진: 깃허브(@hehee9 ​​​​​)]

2026학년도 수능 주요 과목 (국어, 영어, 물리 I, 화학 I, 선택과목 평균) 종합 성적(450점 만점)을 분석한 결과, 대형 모델과 소형·구형 모델 간 성능 격차는 매우 뚜렷했다. 최신 GPT-5.1이 총 433점을 획득하며 전체 모델 중 압도적인 1위를 차지했으며, 이어 GPT-5.1 코덱스(421점), 제미나이 2.5 프로(417.7점) 등 다른 최신 대형 모델 역시 모두 410점을 초과하며 인간 수험생의 최상위권 성적에 버금가는 성능을 입증했다.

반면, GPT-5 나노(310.7점)와 GPT-4o(291.8점) 등 소형이거나 구형으로 분류되는 모델은 최신 대형 모델 대비 낮은 점수를 기록, 복잡한 추론을 요구하는 종합 문제 해결에 어려움을 겪는 한계를 보였다. 

대형·소형 모델 성능 격차 뚜렷…"AI도 목적별로 똑똑하게 써야" 

이번 실험을 주도한 순천향대학교 컴퓨터소프트웨어공학과 3학년에 재학 중인 구유겸 학생은 디지털투데이와의 인터뷰에서 "그동안 글로벌 AI 모델들이 수능 문제 풀이에서 눈에 띄는 성과를 보였다는 기사를 자주 접하면서, 최신 대형 추론 모델이 '가성비 모델'로 불리는 소형 모델과 2026 수능에서는 어떤 성능 차이를 나타낼지 분석하고 싶었다"며 실험을 진행한 이유를 밝혔다.

그는 실험 결과에 대해 "주요 AI 모델이 수능에서 유의미한 성과를 낼 수 있는 수준까지 올라왔다. 이는 AI가 단순히 지식을 검색하는 도구를 넘어 효율적으로 활용하기만 한다면 누구나 이를 최고의 AI 교육 보조 도구로 쓸 수 있다는 의미가 된다"며 "개인 맞춤형 일타 강사 역할을 할 수도 있을 것"이라고 말했다. 이어 "복잡한 표나 그래프 등에 약한 모델의 경우, 그림만 제시하는 것이 아닌  자세한 텍스트를 함께 제시하는 것이 더 좋은 성능을 유도하는 방법"이라고 조언을 덧붙였다.

또한 "AI 모델은 환경이나 목적에 따라 큰 성능 차이를 보이는 만큼, 한 가지 결과에만 치중해 특정 모델 전체의 성능을 섣불리 판단하는 것은 금물"이라며 "암기가 중요한 부분인지, 지식을 요하는 영역인지 등 사용 목적에 맞춰 AI도 똑똑하게 골라 써야 한다"라고 강조했다.

한편, 그는 "이번 실험 결과를 토대로 AI 모델의 한계와 잠재력을 깊이 이해하게 되었다"며 "향후 AI 엔지니어로서 AI 기술 발전에 기여하고 싶다는 포부를 밝혔다.
 

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사