Google đã tích hợp mô hình tạo nhạc bằng trí tuệ nhân tạo Lyria 3 vào Gemini. Qua thử nghiệm với nhiều cách nhập liệu khác nhau, từ mô tả bằng ngôn ngữ tự nhiên, ảnh khuông nhạc đến tiến trình hợp âm, công cụ này cho thấy khả năng dựng cấu trúc và phối khí khá tốt. Tuy nhiên, phần giai điệu và ca từ vẫn thiếu tự nhiên, tạo cảm giác như mô hình đang “học nhạc bằng chữ”.
Lyria 3 là mô hình tạo nhạc do Google DeepMind phát triển, được đưa lên ứng dụng Gemini từ tháng 2 năm nay. Người dùng có thể nhập văn bản hoặc hình ảnh để tạo tệp âm thanh dài khoảng 3 phút, gồm cả phần nhạc, giọng hát và lời ca. Cấu trúc bài hát như phần mở đầu, điệp khúc hay đoạn chuyển cũng có thể được chỉ định trực tiếp trong prompt. Âm thanh đầu ra đạt chất lượng 44,1 kHz stereo, tương đương thiết lập phổ biến trên các nền tảng streaming như Spotify.
Ở lần thử đầu tiên, phóng viên yêu cầu tạo một ca khúc theo phong cách “HUMBLE” của Kendrick Lamar. Lyria 3 trước tiên phân tách bài hát thành các yếu tố riêng lẻ để đưa vào prompt, rồi mô tả đây là một bản hardcore hip-hop/trap với tempo 150 nhịp/phút, bass 808, piano distortion và nhiều đặc điểm khác. Theo kết quả hiển thị, phần phân tích này dựa trên các nguồn công khai như NamuWiki và Wikipedia.
Để tránh sao chép quá sát bản gốc, phóng viên tiếp tục yêu cầu chuyển tông từ A-flat minor sang A minor. Kết quả là một bản hip-hop trap với grand piano distortion, snare nặng lực và hi-hat sắc. Tuy vậy, phần piano trầm lặp lại các nốt đơn khiến người nghe dễ liên tưởng trực tiếp đến “HUMBLE”.
Lyria 3 cũng tự gắn thêm phần rap. Dù khó đánh giá mô hình hiểu nội dung đến đâu, nhịp điệu và vần điệu đặc trưng của rap lại không hiện lên rõ ràng. Màu giọng cũng không giống Kendrick Lamar mà ngả sang cảm giác gần với Eminem hơn. Google cho biết Lyria 3 tạo bản thu từ “nguồn cảm hứng rộng”, cho thấy mô hình có xu hướng bám theo “ngữ pháp” của thể loại nhưng tránh mô phỏng trực tiếp các dấu ấn cá nhân như chất giọng của nghệ sĩ.
Ở một thử nghiệm khác, phóng viên yêu cầu bài nhạc sau điệp khúc đầu tiên sẽ chuyển sang A-flat major, thêm ad-lib giọng nữ theo phong cách ca sĩ R&B Mỹ H.E.R. cùng phần đệm dàn nhạc. Đoạn chuyển từ hip-hop mạnh sang orchestral trữ tình diễn ra khá mượt, ít tạo cảm giác đứt gãy. Đây là điểm cho thấy năng lực phối khí của Lyria 3 vượt kỳ vọng.
◆ AI có thực sự “hiểu” khuông nhạc?
Trong bài thử tiếp theo, phóng viên đính kèm trực tiếp ảnh khuông nhạc của jazz standard “Misty”. Bản nhạc này chỉ có giai điệu và hợp âm. Prompt được đặt theo hướng phối khí jazz trio, tempo ballad 80 nhịp/phút, đồng thời yêu cầu piano bắt đầu ứng tấu ngay từ phần điệp khúc.
Kết quả, theo cách nhìn tích cực, là một ca khúc mang hơi hướng nhạc Hàn thập niên 1980, gợi phong cách Yoo Jae-ha, với những câu như “một cái tên còn lại trên tờ giấy cũ loang ra như vệt cà phê”. Lời hát nghe có nhịp, nhưng lại tách rời khỏi giai điệu. Điều đó cho thấy mô hình dường như chưa nắm được cách nhấn theo vị trí nốt, dù câu chữ vẫn có vần.
Để kiểm tra kỹ hơn mức độ “hiểu” khuông nhạc, phóng viên tự nhập một tiến trình hợp âm dài 24 ô nhịp và yêu cầu bài nhạc được chơi ở nhịp 4/4. Trong đó, “maj7” là hợp âm major seventh, “Eb” là E-flat, còn dấu gạch đứng (|) là ký hiệu chia ô nhịp.
Thành phẩm tạo cảm giác giống như phần ứng tấu của “một học sinh học jazz piano 6 tháng”. Phóng viên tốt nghiệp nhạc viện và từng dạy học sinh luyện thi cho rằng ở mốc này, người học thường đã nắm các hợp âm jazz có tension cùng những mode scale cơ bản. Nếu chỉ dừng ở hai phần đó rồi bước vào ứng tấu, kết quả thường không sai về hòa thanh, nhưng vẫn thô và thiếu tinh tế. Bản nhạc do Lyria 3 tạo ra mang đúng cảm giác đó.
Sau khi phân tích kỹ hơn, phóng viên nhận thấy nốt thứ 7 trong giai điệu bị nhấn lặp đi lặp lại. Về mặt hòa thanh, nốt 7 không sai vì đây là một trong những âm cấu thành hợp âm. Tuy nhiên, khi nốt này rơi vào phách mạnh quá thường xuyên, cảm giác gượng sẽ xuất hiện. Cùng với nốt 3, đây là hai âm cốt lõi làm lộ màu hợp âm rất rõ.
Đặc biệt trong swing 8th-note, việc đặt chord tone ở phách mạnh thường tạo ra độ ổn định tự nhiên. Trong khi đó, bản nhạc của Lyria 3 lại trộn lẫn cách xử lý này với những trường hợp ngược lại, khiến tổng thể thiếu mượt và nghe chưa thật tay.
◆ Có sáng tạo, nhưng vẫn “lạc tông”
Lee Se-dol, kỳ thủ cửu đẳng từng đấu với AlphaGo cách đây 10 năm, từng nói ông bị sốc khi thấy nước 3-3 xuất hiện quá sớm. Đây là nước đi mà người chơi cờ vây thường được dạy từ nhỏ là không nên dùng ở giai đoạn đó. Tuy nhiên, trong khuôn khổ luật chơi, AlphaGo đã chọn một phương án con người thường né tránh và vẫn giành chiến thắng.
Âm nhạc thì khác. Nếu cờ vây có thể kiểm chứng bằng thắng - thua, âm nhạc cuối cùng vẫn phải được đánh giá bằng tai nghe. Lyria 3 cho thấy mô hình có thể tạo ra những lựa chọn mang tính sáng tạo trong khuôn khổ quy tắc hòa thanh, nhưng cảm giác “máy tính” vẫn lộ ra ở nhiều đoạn.
Điểm đáng tiếc nhất là sự thiếu vắng “motive” - yếu tố then chốt giúp âm nhạc thực sự nghe thành nhạc. Với “Twinkle, Twinkle, Little Star Variations” của Mozart, một motive rất đơn giản như “do do sol sol la la sol” có thể được biến tấu và lặp lại bằng trill, arpeggio hoặc những hình tiết tấu nhanh. Trong khi đó, nhạc do Lyria 3 tạo ra thường để lại cảm giác các nốt được xếp nối tiếp một cách ngẫu nhiên, thiếu mạch kể và không tạo được cao trào rõ ràng.
Dù vậy, ở vai trò nhạc nền cho YouTube nhằm giảm rủi ro bản quyền, công cụ này vẫn có thể hữu ích. Trong một số trường hợp, Lyria 3 cũng có thể được dùng để tạo nhạc cho các quảng cáo thương mại chi phí thấp.