![딥시크-OCR(DeepSeek-OCR) [사진: 깃허브]](https://cdn.digitaltoday.co.kr/news/photo/202510/598489_555807_5425.png)
[디지털투데이 AI리포터] 중국 인공지능(AI) 스타트업 딥시크가 새로운 멀티모달 AI 모델 '딥시크-OCR'(DeepSeek-OCR)을 공개했다.
21일(현지시간) 온라인 매체 기가진에 따르면 이 모델은 광학 문자 인식(OCR) 기술을 활용해 텍스트 입력을 압축하며, 대규모 복잡한 문서를 처리할 수 있다. 깃허브(GitHub)를 통해 공개된 딥시크-OCR은 정보의 97%를 유지하면서 텍스트를 10분의 1로 압축할 수 있다.
이 모델은 이미지 처리를 담당하는 '딥인코더'(DeepEncoder)와 텍스트 생성을 위한 '딥시크3B-MoE-A570M'로 구성된다. 딥인코더는 CLIP 모델을 활용해 이미지와 텍스트를 연결하며, 1024×1024 픽셀 이미지를 4096개에서 256개 토큰으로 줄인다.
딥시크-OCR은 다양한 이미지 해상도에서 작동하며, 필요한 비전 토큰 수는 해상도에 따라 64개에서 최대 400개까지 조정된다. 기존 OCR 시스템이 동일한 작업을 수행할 때 수천 개의 토큰이 필요한 것과 비교하면 매우 효율적이다.
또한 딥시크-OCR은 1개의 엔비디아 A100 GPU로 하루 20만 페이지 이상을 처리할 수 있다. 8개의 A100을 탑재한 서버 20대를 사용하면 하루 3300만 페이지까지 처리 가능하다.
이에 대해 홍콩 사우스차이나모닝포스트(SCMP)는 딥시크-OCR이 확장 가능한 초장문 컨텍스트 처리를 가능하게 한다고 평가했다. 또한 최근 컨텍스트는 고해상도로 유지하고 오래된 정보는 적은 리소스로 처리하는 방식으로, 무제한 컨텍스트 아키텍처를 구현할 가능성을 열었다고 분석했다.

