记者实测了谷歌AI音乐生成模型Lyria 3,尝试通过乐谱、和弦进行以及自然语言描述等方式生成歌曲。整体来看,Lyria 3在编曲和段落衔接上的表现可圈可点,但成品仍带有较明显的机器感。
Lyria 3由谷歌DeepMind开发,今年2月起集成至Gemini应用。用户输入文本或图片后,可生成时长约3分钟、包含人声和歌词的音频,并可在提示词中指定前奏、副歌、过渡等段落结构。输出音频为44.1kHz立体声,接近主流流媒体平台的常见规格。
在首次测试中,记者尝试生成一首接近美国说唱歌手Kendrick Lamar《HUMBLE》风格的作品。记者先要求模型拆解该曲可用于提示词的核心元素,得到“硬核嘻哈与Trap”、150 BPM、808贝斯、失真钢琴等特征描述。模型称,其分析依据来自Namuwiki、Wikipedia等公开资料。
为避免对原曲过度复刻,记者进一步要求将调式从原曲的降A小调改为A小调。生成结果呈现出典型的Trap嘻哈质感:失真大钢琴、强调冲击感的军鼓、尖锐的踩镲,以及以单音反复推进的低音区钢琴线条,整体很容易让人联想到《HUMBLE》。
Lyria 3还补充了说唱歌词,但歌词语义不够清晰,押韵和节奏设计也不算突出;在人声方面,生成声线与Kendrick本人差异明显,整体反而更接近Eminem。谷歌强调,Lyria 3的音频生成基于广泛的灵感来源,但从实际效果看,它更像是在遵循特定流派的语法规则,同时刻意避开艺人独有的声线等标志性特征。
随后,记者进一步提出变奏要求:在第一段副歌后转调至降D大调,并加入美国R&B歌手H.E.R.风格的女声即兴和管弦伴奏。最终结果从强烈的嘻哈段落过渡到抒情的管弦编配,整体衔接并不突兀,编曲能力超出预期。
能否识别乐谱?
在另一轮测试中,记者上传了知名爵士曲《Misty》的乐谱图片。这类爵士谱通常只标注旋律和和弦。记者要求模型以爵士三重奏编制、80 BPM的抒情速度演奏,并从副歌部分直接进入钢琴即兴。
生成结果却更像一首“80年代抒情歌”,同时附带歌词“旧纸上留下的名字像咖啡渍般晕开”。乍听之下,节奏似乎基本对位,但歌词与旋律的贴合度并不高;从文字层面看虽有押韵,却没有准确落在不同音高对应的重音位置上。
为进一步测试模型对乐谱的理解能力,记者又直接输入了24小节的和弦进行,并额外说明“maj7”为大七和弦、“Eb”为降E、“|”表示小节线,同时要求以4/4拍演奏。
最终成品更像“学了6个月爵士钢琴的学生”所做的即兴。记者表示,自己毕业于音乐学院,也曾辅导学生备考;通常在学习约6个月后,学生会掌握带有紧张音的爵士和弦以及基础调式音阶。如果只掌握这两项就开始即兴,往往就会出现类似结果:和声本身未必有误,但整体气质偏生涩,缺乏成熟度。
记者进一步分析后认为,这种听感与旋律中第七音被反复强调有关。
第七音本身属于和弦构成音之一,从和声学角度看并不算错,但如果在强拍位置被过度突出,就会显得不够自然。它与三音共同构成和弦骨架,容易让和弦色彩暴露得过于直接。尤其在爵士常见的八分音符Swing语境下,强拍通常需要更稳定的落点,而生成结果中却混入了相反的处理方式。
有创意,但违和感仍在
文章提到,10年前与AlphaGo对局的Lee Sedol九段,曾因开局“3·3”落子而感到震惊,因为那是过去从小就被告诫不要轻易使用的下法。AlphaGo最终在既定规则内走出了人类棋手不常选择的路径,并取得胜利。
但与胜负可量化的围棋不同,音乐最终仍要靠听觉来检验。Lyria 3虽然能在和声规则范围内做出一些变化,但多处仍能听出明显的机器感。
记者认为,Lyria 3目前最大的短板在于缺乏“动机”。动机是让音乐真正成立的关键元素。以莫扎特《小星星变奏曲》为例,整部作品围绕“哆哆嗦嗦 拉拉嗦”这一简单动机展开,再通过颤音、分解和弦、快速音型等方式不断变奏。相比之下,Lyria 3生成的音乐更像是在缺少核心动机的情况下随机排列音符,整体也因此缺乏起承转合。
不过,文章也指出,在需要规避版权的YouTube背景音乐等场景中,这类生成音频仍具一定实用性;在特定情况下,也可能被用于低预算商业广告配乐。