CNBC ngày 10/4 cho biết Alibaba Cloud đã dẫn đầu vòng gọi vốn Series B trị giá 290 triệu USD vào ShengShu, startup phát triển công cụ tạo video bằng AI Vidu. Vòng đầu tư còn có sự tham gia của TAL Education và Baidu Ventures.
Thương vụ này phản ánh xu hướng rót vốn vào các doanh nghiệp phát triển “mô hình thế giới”, hướng tiếp cận dựa trên video và các kịch bản vật lý trong bối cảnh các mô hình ngôn ngữ lớn (LLM) thiên về văn bản ngày càng bộc lộ giới hạn.
ShengShu cho biết sẽ sử dụng số vốn mới để phát triển “mô hình thế giới đa phương thức”, nối liền thế giới số của game và video do AI tạo ra với các ứng dụng trong thế giới thực như robot và xe tự hành.
Theo công ty, mô hình này được xây dựng trên dữ liệu đa phương thức gồm hình ảnh, âm thanh và xúc giác, qua đó có thể mô phỏng cách thế giới vật lý vận hành tốt hơn so với LLM. Nhà sáng lập Zhu Jun nói mục tiêu của ShengShu là kết nối nhận thức với hành động, giúp hệ thống AI có thể mô hình hóa và dự báo nhất quán các chuyển động trong thế giới thực.
CNBC cho biết phiên bản mới nhất Vidu Q3 Pro hiện nằm trong top 10 mô hình AI tạo video từ văn bản và hình ảnh. ShengShu cũng đã ra mắt Vidu trên thị trường toàn cầu vài tháng trước khi OpenAI công bố Sora.
Alibaba gần đây liên tiếp mở rộng đầu tư vào các startup cùng lĩnh vực. Tháng trước, tập đoàn này cùng Baidu Ventures rót 50 triệu USD vào Tripo AI, công ty phát triển công nghệ tạo mô hình 3D từ ảnh. Tháng 9 năm ngoái, Alibaba tiếp tục đầu tư 60 triệu USD vào PixVerse, doanh nghiệp đã ra mắt mô hình thế giới AI. Bên cạnh đó, Alibaba cũng phát hành các mô hình AI tạo video mã nguồn mở và hồi tháng 2 công bố một mô hình phục vụ vận hành robot.
Giới phân tích đánh giá mô hình thế giới có ý nghĩa đặc biệt quan trọng với ngành robot. Kevin Kelly, đồng sáng lập tạp chí công nghệ Wired của Mỹ, nhận định rằng để hiện thực hóa AI đạt cấp độ con người cần ba yếu tố gồm năng lực suy luận, khả năng hiểu thế giới vật lý và học hỏi liên tục. Trong đó, mô hình thế giới được xem là bước đột phá then chốt.