[디지털투데이 AI리포터] 구글의 학술·연구 부문인 구글 리서치(Google Research)가 정적인 인물 사진에 음성을 생성하는 인공지능(AI) 시스템 '블로거'(VLOGGER)를 소개했다.
19일(현지시간) 일본 IT미디어에 따르면 구글 리서치는 블로거에 대한 논문을 발표하며 10명의 인물 모습이 담긴 동영상을 게재했다. 이들은 모두 음성 등의 소리가 가미돼 실제 말하는 것처럼 보인다.
블로거는 인물 이미지에서 3D 모션으로의 확률적 확산 모델이다. 이는 공간 및 시간적 제어를 통해 텍스트에서 이미지로 모델을 강화하는 새로운 확산 기반 아키텍처로 구성된다. 이를 통해 가변 길이의 고품질 동영상 생성이 가능하다.
각 인물 이미지는 별도의 훈련이 필요 없으며 입 모양뿐만 아니라 눈 깜빡임 등 얼굴 전체의 표정이나 손동작도 표현할 수 있다. 이는 80만 개의 아이덴티티로 구성된 기존 데이터보다 더 크고 역동적인 제스처를 갖춘 새로운 데이터 '멘토'(MENTOR)를 기반으로 한다.
연구팀은 "블로거가 프레젠테이션, 교육, 내레이션 등을 위한 독립적인 솔루션으로 인간과 컴퓨터의 상호작용을 위한 인터페이스로 활용될 수 있다"라고 설명했다.
SNS 기사보내기
관련기사
- MS, 구글 딥마인드 공동창업자 영입…AI 부서 맡긴다
- 애플, 첫 AI 모델 'MM1'공개…AI 전쟁 본격적으로 뛰어드나
- 구글, AI 콘텐츠 큐레이션 서비스 '킨' 종료…3월 24일부터
- 세계에서 가장 빠른 AI 칩 나왔다…"트랜지스터만 4조개"
- 구글, 안드로이드용 전화앱서 '주변 장소 검색' 기능 제거…"사용자 극소수"
- 휴대폰 꺼낼 필요 없다…구글 웨어OS, '대중교통 길찾기' 기능 추가
- 구글이 AI 훈련 방식 위반으로 프랑스에 납부한 천문학적 벌금
- 구글, 어디로 가는지 모르는 '뒤로 가기' 혼란 줄인다…'예측 뒤로 가기' 선봬
- 구글, AI로 1주 전 홍수 예측 성공…자연재해 예측 모델 개발