Ngày 20/5, TechCrunch đưa tin Stability AI đã công bố Stable Audio 3.0, dòng mô hình âm thanh mới có khả năng tạo bản nhạc hoàn chỉnh dài tới 6 phút 20 giây.
Theo Stability AI, Stable Audio 3.0 gồm bốn phiên bản là Small SFX, Small, Medium và Large. Trong đó, phiên bản cao cấp nhất hướng đến nhu cầu sản xuất âm nhạc chuyên nghiệp với thời lượng đầu ra vượt mốc 6 phút.
Small SFX và Small đều có 459 triệu tham số, hỗ trợ tạo hiệu ứng âm thanh và nhạc dài tối đa 2 phút, đồng thời có thể chạy trực tiếp trên thiết bị. Medium có 1,4 tỷ tham số, trong khi Large đạt 2,7 tỷ tham số.
Cả Medium và Large đều có thể tạo ca khúc hoàn chỉnh dài 6 phút 20 giây. Stability AI cho biết hai mô hình này có thể duy trì cấu trúc bài nhạc và sắc thái giai điệu ở thời lượng dài, cao hơn gấp đôi so với Stable Audio 2.0 ra mắt năm 2024.
Công ty đã mở công khai trọng số của Small SFX, Small và Medium để người dùng có thể sử dụng và tinh chỉnh. Riêng bản Large chỉ được cung cấp thông qua API và gói triển khai tự lưu trữ có thu phí. Các doanh nghiệp có doanh thu hằng năm trên 1 triệu USD sẽ cần giấy phép doanh nghiệp riêng.
Stability AI cũng khẳng định dòng mô hình âm thanh mới được xây dựng trên bộ dữ liệu đã được cấp phép đầy đủ. Năm ngoái, công ty đã ký thỏa thuận với Warner Music Group và Universal Music Group để phát triển mô hình và các công cụ phục vụ sản xuất âm nhạc.
Ngoài ra, Stability AI cho biết đang phát triển một dòng sản phẩm mới dành cho nhạc sĩ chuyên nghiệp, nhưng chưa công bố tính năng cụ thể. Theo TechCrunch, Ethan Kaplan, người từng giữ vai trò giám đốc kỹ thuật số tại Universal Audio và Fender, đã gia nhập Stability AI để phụ trách phát triển sản phẩm âm nhạc chuyên nghiệp.