Google ra mắt Gemini Omni, mô hình AI đa phương thức tạo video

Google đã giới thiệu Gemini Omni, mô hình AI đa phương thức có khả năng hiểu đồng thời văn bản, hình ảnh, âm thanh và video để tạo video. Trước mắt, công nghệ này được triển khai trên ứng dụng Gemini, YouTube Shorts và công cụ sáng tạo AI Flow.

Theo TechCrunch ngày 19/5 (giờ địa phương), Google công bố Gemini Omni tại hội nghị dành cho nhà phát triển Google I/O thường niên. Cùng với đó, hãng giới thiệu phiên bản “Gemini Omni Flash” và cho biết sẽ tích hợp trước mô hình này vào một số dịch vụ chủ lực.

Google cho biết Gemini Omni không chỉ xử lý nhiều dạng đầu vào khác nhau mà còn suy luận đồng thời từ hình ảnh, âm thanh, video và văn bản để tạo ra đầu ra liền mạch hơn. Theo hãng, nhờ vậy mô hình có thể tạo video chất lượng cao, phản ánh hiểu biết về vật lý, văn hóa, lịch sử và khoa học.

Về lâu dài, Google dự kiến mở rộng Gemini Omni sang các tác vụ như tạo hình ảnh từ âm thanh hoặc tạo âm thanh từ video.

Ở giai đoạn hiện tại, trọng tâm của Gemini Omni là tạo video. Người dùng có thể chỉnh sửa ảnh bằng câu lệnh ngôn ngữ tự nhiên mà không cần dùng phần mềm dựng phức tạp. Hệ thống cũng hỗ trợ tạo video bằng avatar số của chính người dùng.

Để hạn chế nguy cơ deepfake, tính năng tạo avatar yêu cầu một quy trình xác minh riêng. Người dùng phải tự quay video của mình và đọc một dãy số, sau đó avatar sẽ được lưu lại để tái sử dụng. Tất cả video do Gemini Omni tạo ra đều được gắn watermark số SynthID của Google.

Nicole Brihhtova, phụ trách quản lý sản phẩm tại Google DeepMind, cho biết Gemini Omni không đơn thuần là bản nâng cấp của mô hình tạo video Veo. Theo bà, đây là công nghệ thế hệ mới kết hợp năng lực của Gemini với khả năng dựng hình của các mô hình tạo sinh. Trong khi đó, Koray Kavukcuoglu, Giám đốc công nghệ của DeepMind, cho biết chỉ với câu lệnh đơn giản như “hoạt hình đất sét giải thích gấp cuộn protein”, hệ thống có thể nhanh chóng tạo ra video phong cách stop-motion kèm phần thuyết minh.

Phiên bản Gemini Omni Flash hiện tạo video dài 10 giây. Google cho biết đây không phải giới hạn của mô hình, mà là cách để nhiều người dùng có thể sớm trải nghiệm công nghệ mới. Tính năng tạo video dài hơn sẽ được bổ sung trong thời gian tới.

Theo Google, Gemini Omni Flash trước mắt hướng tới người dùng phổ thông. Hãng đưa ra các ví dụ như tạo video về khoảnh khắc nhận giải thưởng, hành trình lên Mặt Trăng hoặc xóa người vô tình xuất hiện ở hậu cảnh trong video du lịch. Tuy nhiên, Google cũng lưu ý rằng nếu câu lệnh chỉnh sửa không đủ cụ thể, hệ thống có thể chỉnh sửa quá mức và làm thay đổi cả những chi tiết ngoài mong muốn.

Google dự kiến cung cấp Gemini Omni dưới dạng API trong vài ngày tới. Bên cạnh đó, hãng cũng đang chuẩn bị phiên bản cao cấp “Gemini Omni Pro”, hướng đến các nhu cầu chuyên nghiệp như quảng cáo và sản xuất video, nhưng chưa công bố thời điểm ra mắt.

Chi-kyu Hwang delight@d-today.co.kr

Từ khóa