TwelveLabs, startup phát triển mô hình AI tạo sinh chuyên về hiểu video, ngày 1/7 (giờ địa phương) cho biết đã huy động 100 triệu USD trong vòng Series B. Công ty cho biết nguồn vốn mới sẽ được dùng để mở rộng năng lực công nghệ, vượt ra ngoài bài toán hiểu video đơn lẻ và tiến gần hơn tới mục tiêu xây dựng trí tuệ máy ở cấp độ tổng quát hơn.
Theo công bố, vòng gọi vốn do NEA và Naver Ventures đồng dẫn dắt. Amazon, Radical Ventures, Korea Investment Partners, Index Ventures, Kadriyu Capital và Red Bull Ventures cũng tham gia. Sau thương vụ này, tổng số vốn TwelveLabs huy động được đã vượt 207 triệu USD.
Lee Jae-seong, CEO kiêm đồng sáng lập TwelveLabs, cho biết cách đây 5 năm, công ty đã đặt cược vào một hướng tiếp cận khác: nền tảng của trí tuệ máy không nằm ở ngôn ngữ, mà ở dữ liệu phản ánh chuyển động của thế giới thực. Theo ông, ngôn ngữ chỉ là kết quả của quá trình thấu hiểu, còn video mới là dạng dữ liệu cốt lõi mà AI cần có khả năng diễn giải.
TwelveLabs cho biết họ đã phát triển một dòng mô hình AI nền tảng được xây dựng chuyên biệt cho bài toán hiểu video. Khác với cách tiếp cận dùng mô hình ngôn ngữ lớn (LLM) để xử lý video, công ty tập trung vào các mô hình đa phương thức được thiết kế từ đầu cho loại dữ liệu này.
Hai sản phẩm chủ lực hiện nay là dòng mô hình Marengo và Pegasus 1.5.
Theo TwelveLabs, Marengo 3.0 ra mắt vào cuối năm ngoái có khả năng xử lý video, âm thanh, văn bản cùng các tín hiệu ngữ cảnh từ môi trường thực. Hệ thống này chuyển đổi nhiều dạng nội dung thành cấu trúc dữ liệu mà máy có thể đọc được, như cơ sở dữ liệu vector, qua đó hỗ trợ AI hiểu và truy xuất thông tin ở quy mô lớn.
Pegasus được phát triển để phối hợp với Marengo trong việc biến video thành dữ liệu có cấu trúc. Mô hình này có thể xác định ranh giới cảnh quay, các thực thể xuất hiện, mốc thời gian và bối cảnh diễn ra, từ đó hỗ trợ LLM suy luận dựa trên thông tin thị giác. TwelveLabs cho biết cách tiếp cận này tương tự việc chuyển khối lượng lớn tài liệu hoặc hình ảnh sang dạng dễ diễn giải hơn để phục vụ tóm tắt và phân tích.
Công ty cho biết các LLM hiện nay vẫn chưa thể trực tiếp xử lý trọn vẹn video trong một phiên suy luận. Thay vào đó, video thường phải được tách thành nhiều ảnh tĩnh để phục vụ phân tích. TwelveLabs nói họ đã xây dựng được năng lực suy luận theo dòng thời gian một cách nguyên bản, đồng thời duy trì ngữ cảnh xuyên suốt giữa các truy vấn.
Trên nền tảng đó, TwelveLabs đặt mục tiêu định hình một mô hình mới cho nhận thức video, trong đó máy có thể phân tích, tìm kiếm và đưa dữ liệu video vào các tác vụ công việc thực tế.
Cùng với vòng gọi vốn mới, TwelveLabs cũng mở rộng hợp tác với Amazon Web Services (AWS). Công ty đã ký một thỏa thuận nhiều năm nhằm tối ưu các tác vụ suy luận video trên chip AWS Trainium. Theo kế hoạch, các mô hình tiên phong tiếp theo của TwelveLabs cũng sẽ được ra mắt trước tiên trên AWS.