구글 리서치, 정적인 인물 사진 움직이게 하는 AI 소개…음성도 나온다 < 뉴스위드AI < AI·엔터프라이즈 < 기사본문 - 디지털투데이 (DigitalToday)

구글 리서치, 정적인 인물 사진 움직이게 하는 AI 소개…음성도 나온다

기자명 AI리포터
입력 2024.03.20 09:50

댓글 0

이 기사를 공유합니다

구글 리서치가 정적인 인물 사진을 움직이게 하는 AI를 소개했다 [사진: IT media]

[디지털투데이 AI리포터] 구글의 학술·연구 부문인 구글 리서치(Google Research)가 정적인 인물 사진에 음성을 생성하는 인공지능(AI) 시스템 '블로거'(VLOGGER)를 소개했다.

19일(현지시간) 일본 IT미디어에 따르면 구글 리서치는 블로거에 대한 논문을 발표하며 10명의 인물 모습이 담긴 동영상을 게재했다. 이들은 모두 음성 등의 소리가 가미돼 실제 말하는 것처럼 보인다.

블로거는 인물 이미지에서 3D 모션으로의 확률적 확산 모델이다. 이는 공간 및 시간적 제어를 통해 텍스트에서 이미지로 모델을 강화하는 새로운 확산 기반 아키텍처로 구성된다. 이를 통해 가변 길이의 고품질 동영상 생성이 가능하다.

각 인물 이미지는 별도의 훈련이 필요 없으며 입 모양뿐만 아니라 눈 깜빡임 등 얼굴 전체의 표정이나 손동작도 표현할 수 있다. 이는 80만 개의 아이덴티티로 구성된 기존 데이터보다 더 크고 역동적인 제스처를 갖춘 새로운 데이터 '멘토'(MENTOR)를 기반으로 한다.

연구팀은 "블로거가 프레젠테이션, 교육, 내레이션 등을 위한 독립적인 솔루션으로 인간과 컴퓨터의 상호작용을 위한 인터페이스로 활용될 수 있다"라고 설명했다.

AI리포터 ai@d-today.co.kr

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사

월드코인, 6개월간 토큰 공급량 최대 19% 확대 예정

[블록체인핫이슈] 비트코인 반감기 끝난 암호화폐 시장 변화 주목

비트코인 레이어2 스택스, 나카모토 업글 2단계 시작...5월말 완료

엘살바도르 어쩌나…국영 비트코인 지갑 '또' 해킹당해

체인링크 공동창업자 "암호화폐 ETF, 더 늘어날 것"…기대감 솔솔

상폐 1년 뒤 복귀하는 코인들...업계 공식으로?

비트코인 사상 4번째 반감기 성공적 완료…희소성 증가

월드코인, 6개월간 토큰 공급량 최대 19% 확대 예정

개의 댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

내 댓글 모음