국내 생성형 AI 시장이 텍스트에서 영상으로 적용 범위를 확장하고 있다.  [사진 셔터스톡]
 국내 생성형 AI 시장이 텍스트에서 영상으로 적용 범위를 확장하고 있다. [사진 셔터스톡]

[디지털투데이 박건도 기자] 텍스트와 이미지가 주도했던 생성형 AI 시장이 영상으로 확대되고 있다. 영상을 겨냥한 국내외 생성형 AI 스타트업 행보도 빨라지고 있다.

해외에선 런웨이, DID 등 텍스트를 영상으로 만들어 주는 스타트업들이 거액의 투자를 유치하며 관심을 끌고 있고 국내서도 영상을 겨냥한 생성형 AI 스타트업들이 속속 출사표를 던지고 있어 눈길을 끈다.

릴리스AI는 최근 유튜브 동영상 링크를 사이트에 입력하면 이를 자동으로 분석 및 요약하는 서비스를 출시했다.

오현수 릴리스AI 대표는 "동영상으로 정보를 얻는 사람들이 많아지면서 영상 내용을 요약하는 기술도 필요해졌다"며 "출시 2주 만에 서비스 사용자가 1만명을 넘었다"고 전했다.

릴리스AI는 오픈AI LLM과 LLM을 활용해 애플리케이션을 개발할 수 있도록 지원하는프레임워크인 '랭체인(LangChain)' 기술을 기반으로 서비스를 선보였다.

페가수스는 폐쇄회로(CC)TV, 방송 콘텐츠 등 긴 영상의 핵심 내용을 텍스트로 뽑아낼 수 있다. [사진 트웰브랩스]
페가수스는 폐쇄회로(CC)TV, 방송 콘텐츠 등 긴 영상의 핵심 내용을 텍스트로 뽑아낼 수 있다. [사진 트웰브랩스]

트웰브랩스도 최근  영상에 활용할 수 있는 LLM '페가수스'를 선보였다.  회사 측에 따르면  페가수스는 영상을 이해해 요약, 분류, 검색할 수 있도록 지원한다. 개발자들이 API 방식으로 활용할 수 있다.

페가수스는 긴 영상을 텍스트로 요약하거나 챗 GPT를 사용하 듯 영상에 관해 자연어로 질문할 수 있도록 지원한다. LLM으로 PDF 파일을 요약하고 분석하는 개념을 영상으로 확장한 것으로 보면 된다.

트웰브랩스 관계자는 "사람이 긴 시간 들여 CCTV를 분석하지 않아도 된다"며 "챗GPT 사용하듯 영상에 질문하면서 원하는 정보를 얻을 수 있다"고 말했다.

회사 측에 따르면 기존 영상 분석 패러다임은 '지도학습' 기반으로 단일 과제를 해결하는 '비전 모델' 중심인 반면, 트웰브랩스는 사전 학습된 거대한 '파운데이션 모델' 기반으로 많은 과제를 해결할 수 있다. 

회사 측은 "페가수스는 확장성 뿐 아니라 정확도 측면에서도 기존 영상 분석 모델과 다르다"며 "API 형태로 상용화돼 개발자 및 기업들은 트웰브랩스 영상 이해 모델을 바로 활용할 수 있다"고 말했다. 트웰브랩스는 공공기관 및 기업들이 엔터테인먼트, 교육, 스포츠 등 산업 전반에 걸쳐 페가수스를 적용할 것으로 기대했다.

영상 생성형 AI 스타트업의 대표주자 중 하나인 런웨이는 최근 텍스트, 이미지, 비디오를 활용해  비디오를 생성하는 모델인 젠(Gen)-2를 업데이트했다. 외신 보도들에 따르면 사용자들 사이에선 젠-2에 대해 긍정적인 반응도 많이 나오고 있다.

시장 조사 업체 마켓앤마켓(MarketsandMarkets) '글로벌 텍스트-이미지 변환 AI 시장 전망'에 따르면 '텍스트-비디오 변환 AI' 시장 규모는 2027년까지 37% 성장률을 기록할 것으로 전망했다. 지난해 의 경우1200억원 규모였는데, 4년 내로 1조원에 이를 것이라는 분석이다.

국내 한 생성형 AI 기업 관계자는 "텍스트만이 아니라 사람이 원하는 어떤 형태로든 AI로 가공하는 것이 가능해지고 있다"고 말했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지