谷歌音乐生成AI Lyria 3体验：编曲表现不错，但机器感仍明显

Lyria 3以Kendrick Lamar《HUMBLE》为参考生成音频。图片来源：Gemini应用截图

记者实测了谷歌AI音乐生成模型Lyria 3，尝试通过乐谱、和弦进行以及自然语言描述等方式生成歌曲。整体来看，Lyria 3在编曲和段落衔接上的表现可圈可点，但成品仍带有较明显的机器感。

Lyria 3由谷歌DeepMind开发，今年2月起集成至Gemini应用。用户输入文本或图片后，可生成时长约3分钟、包含人声和歌词的音频，并可在提示词中指定前奏、副歌、过渡等段落结构。输出音频为44.1kHz立体声，接近主流流媒体平台的常见规格。

在首次测试中，记者尝试生成一首接近美国说唱歌手Kendrick Lamar《HUMBLE》风格的作品。记者先要求模型拆解该曲可用于提示词的核心元素，得到“硬核嘻哈与Trap”、150 BPM、808贝斯、失真钢琴等特征描述。模型称，其分析依据来自Namuwiki、Wikipedia等公开资料。

为避免对原曲过度复刻，记者进一步要求将调式从原曲的降A小调改为A小调。生成结果呈现出典型的Trap嘻哈质感：失真大钢琴、强调冲击感的军鼓、尖锐的踩镲，以及以单音反复推进的低音区钢琴线条，整体很容易让人联想到《HUMBLE》。

Lyria 3还补充了说唱歌词，但歌词语义不够清晰，押韵和节奏设计也不算突出；在人声方面，生成声线与Kendrick本人差异明显，整体反而更接近Eminem。谷歌强调，Lyria 3的音频生成基于广泛的灵感来源，但从实际效果看，它更像是在遵循特定流派的语法规则，同时刻意避开艺人独有的声线等标志性特征。

随后，记者进一步提出变奏要求：在第一段副歌后转调至降D大调，并加入美国R&B歌手H.E.R.风格的女声即兴和管弦伴奏。最终结果从强烈的嘻哈段落过渡到抒情的管弦编配，整体衔接并不突兀，编曲能力超出预期。

能否识别乐谱？

在另一轮测试中，记者上传了知名爵士曲《Misty》的乐谱图片。这类爵士谱通常只标注旋律和和弦。记者要求模型以爵士三重奏编制、80 BPM的抒情速度演奏，并从副歌部分直接进入钢琴即兴。

生成结果却更像一首“80年代抒情歌”，同时附带歌词“旧纸上留下的名字像咖啡渍般晕开”。乍听之下，节奏似乎基本对位，但歌词与旋律的贴合度并不高；从文字层面看虽有押韵，却没有准确落在不同音高对应的重音位置上。

为进一步测试模型对乐谱的理解能力，记者又直接输入了24小节的和弦进行，并额外说明“maj7”为大七和弦、“Eb”为降E、“|”表示小节线，同时要求以4/4拍演奏。

最终成品更像“学了6个月爵士钢琴的学生”所做的即兴。记者表示，自己毕业于音乐学院，也曾辅导学生备考；通常在学习约6个月后，学生会掌握带有紧张音的爵士和弦以及基础调式音阶。如果只掌握这两项就开始即兴，往往就会出现类似结果：和声本身未必有误，但整体气质偏生涩，缺乏成熟度。

记者进一步分析后认为，这种听感与旋律中第七音被反复强调有关。

第七音本身属于和弦构成音之一，从和声学角度看并不算错，但如果在强拍位置被过度突出，就会显得不够自然。它与三音共同构成和弦骨架，容易让和弦色彩暴露得过于直接。尤其在爵士常见的八分音符Swing语境下，强拍通常需要更稳定的落点，而生成结果中却混入了相反的处理方式。

有创意，但违和感仍在

文章提到，10年前与AlphaGo对局的Lee Sedol九段，曾因开局“3·3”落子而感到震惊，因为那是过去从小就被告诫不要轻易使用的下法。AlphaGo最终在既定规则内走出了人类棋手不常选择的路径，并取得胜利。

但与胜负可量化的围棋不同，音乐最终仍要靠听觉来检验。Lyria 3虽然能在和声规则范围内做出一些变化，但多处仍能听出明显的机器感。

记者认为，Lyria 3目前最大的短板在于缺乏“动机”。动机是让音乐真正成立的关键元素。以莫扎特《小星星变奏曲》为例，整部作品围绕“哆哆嗦嗦拉拉嗦”这一简单动机展开，再通过颤音、分解和弦、快速音型等方式不断变奏。相比之下，Lyria 3生成的音乐更像是在缺少核心动机的情况下随机排列音符，整体也因此缺乏起承转合。

不过，文章也指出，在需要规避版权的YouTube背景音乐等场景中，这类生成音频仍具一定实用性；在特定情况下，也可能被用于低预算商业广告配乐。

Seul-gi Son sageson@d-today.co.kr

关键词