구글 리서치가 정적인 인물 사진을 움직이게 하는 AI를 소개했다 [사진: IT media]
구글 리서치가 정적인 인물 사진을 움직이게 하는 AI를 소개했다 [사진: IT media]

[디지털투데이 AI리포터] 구글의 학술·연구 부문인 구글 리서치(Google Research)가 정적인 인물 사진에 음성을 생성하는 인공지능(AI) 시스템 '블로거'(VLOGGER)를 소개했다. 

19일(현지시간) 일본 IT미디어에 따르면 구글 리서치는 블로거에 대한 논문을 발표하며 10명의 인물 모습이 담긴 동영상을 게재했다. 이들은 모두 음성 등의 소리가 가미돼 실제 말하는 것처럼 보인다.

블로거는 인물 이미지에서 3D 모션으로의 확률적 확산 모델이다. 이는 공간 및 시간적 제어를 통해 텍스트에서 이미지로 모델을 강화하는 새로운 확산 기반 아키텍처로 구성된다. 이를 통해 가변 길이의 고품질 동영상 생성이 가능하다.

각 인물 이미지는 별도의 훈련이 필요 없으며 입 모양뿐만 아니라 눈 깜빡임 등 얼굴 전체의 표정이나 손동작도 표현할 수 있다. 이는 80만 개의 아이덴티티로 구성된 기존 데이터보다 더 크고 역동적인 제스처를 갖춘 새로운 데이터 '멘토'(MENTOR)를 기반으로 한다.

연구팀은 "블로거가 프레젠테이션, 교육, 내레이션 등을 위한 독립적인 솔루션으로 인간과 컴퓨터의 상호작용을 위한 인터페이스로 활용될 수 있다"라고 설명했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사