Tongyi Lab, đơn vị nghiên cứu AI của Alibaba, ngày 1/4 công bố Qwen3.5-Omni, mô hình AI omni-modal có khả năng hiểu văn bản, hình ảnh, âm thanh, video và tạo giọng nói.
Theo Gigazine ngày 31/3 giờ địa phương, Tongyi Lab cho biết khả năng xử lý giọng nói và video của mô hình này vượt Gemini 3.1 Pro của Google.
Alibaba nhấn mạnh hai điểm chính của Qwen3.5-Omni là phản hồi theo thời gian thực và khả năng xử lý đầu vào dài. Mô hình có độ dài ngữ cảnh tối đa 256.000, cho phép tiếp nhận tới 10 giờ âm thanh hoặc 400 giây video ở tốc độ 1 FPS.
Về ngôn ngữ, tính năng nhận dạng giọng nói hỗ trợ 74 ngôn ngữ, trong đó có 39 phương ngữ tiếng Trung cùng các ngôn ngữ như tiếng Nhật và tiếng Anh. Tính năng tạo giọng nói hỗ trợ 29 ngôn ngữ, gồm 7 phương ngữ tiếng Trung, tiếng Nhật và tiếng Anh.
Tongyi Lab cũng công bố dữ liệu huấn luyện và kiến trúc mô hình. Theo nhóm nghiên cứu, Qwen3.5-Omni được đào tạo trên hơn 100 triệu giờ dữ liệu hình ảnh và âm thanh.
Bên trong mô hình là cơ chế kết hợp hai cụm mixture of experts. Một cụm đảm nhiệm tạo văn bản, trong khi cụm còn lại tiếp nhận phần văn bản đó để tạo giọng nói phù hợp với ngữ cảnh.
Tongyi Lab đồng thời nêu định hướng mở rộng lên “native omni-modal AGI”, với mục tiêu phát triển mô hình omni-modal hoạt động theo hướng native trên quy mô toàn diện.
Sản phẩm được giới thiệu với ba phiên bản gồm Qwen3.5-Omni Plus, Qwen3.5-Omni Flash và Qwen3.5-Omni Light. Người dùng có thể truy cập qua API ngoại tuyến và API thời gian thực.
Theo Tongyi Lab, phiên bản Plus cho kết quả tốt hơn Gemini 3.1 Pro trong nhiều bài đánh giá chuẩn.
Ở phần trình diễn, nhóm nghiên cứu giới thiệu khả năng hiểu video và hỗ trợ lập trình. Ngoài việc mô tả các sự kiện trong video dưới dạng văn bản, Qwen3.5-Omni còn có thể nhận video chứa bản phác thảo cùng phần mô tả chức năng bằng giọng nói để sinh mã nguồn.
Tongyi Lab gọi cách tiếp cận này là “Audio-Visual Vibe Coding”. Với tính năng tạo giọng nói, nhóm cho biết mô hình có thể điều chỉnh tông giọng để tạo đầu ra âm thanh chất lượng cao.
Động thái này cho thấy Alibaba đang tăng hiện diện trong cuộc đua AI omni-modal, lĩnh vực tích hợp xử lý văn bản, hình ảnh, âm thanh và video. Hiệu quả cạnh tranh thực tế của sản phẩm sẽ phụ thuộc vào độ ổn định khi xử lý đầu vào dài, tốc độ phản hồi thời gian thực và chất lượng tạo giọng nói trong môi trường dịch vụ.