AI终于攻破音乐：新歌金曲都能高仿，还会唱Rap

硅星人 | 2020-05-30 11:08:34 阅读：4852

基于机器学习技术的人工智能，在最近十年已经变得非常先进，在计算机图像识别领域，现在已经广泛应用在自动驾驶、机器人、手机拍照滤镜等众多领域；语音识别技术也有很大的突破，人工智能现在已经可以准确“听懂”世界上每一种主流语言，甚至包括中国流行的方言。

更为强大的生成式神经网络模型，近几年非常热门。利用到 DeepFake 技术中，可以让换脸视频以假乱真；谷歌前年发布的 Duplex 技术，生成的机器人语音可以代替客服接听电话，效果令人震惊。最近，人工智能再一次实现重大突破：OpenAI 开发的一个全新的神经网络，不仅能够生成流行风格的音乐，“编”出的曲子风格还可以和现实中的音乐人实现“高仿”。OpenAI 给它取名叫 Jukebox，中文就是点唱机，大概意思是点什么唱什么，没有难得倒它的……只要你给这个神经网络提供音乐的类型 (genre)、参考的歌手和歌词作为输入，它就能自动生成对应的音乐。而且它还有多种工作模式。1）跨界合作：把歌手A的歌词和B的风格/唱腔混搭在一起，生成一首“跨界合作”单曲；
2）歌曲补完：把一首歌的前12秒输入进去，Jukebox 可以自动补完这首歌，而且风格竟然和原版歌曲还挺像；3）自造歌曲：借助 OpenAI 此前开发的文字生成模型，Jukebox 能把生成的歌词插到给定的风格、歌手身上，生成一首全新歌曲。有这么厉害么？不听不知道，一听吓一跳。先来感受下第一首歌，用埃米纳姆 Lose Yourself 的歌词，配上了坎爷 Kanye West 的曲风和唱腔。这两位从未合作过的殿堂级说唱巨星，终于在人工智能的帮助下“你中有我，我中有你”了：风格混搭再来演示一下歌曲补完的效果。OpenAI 的研究人员喂了一段火星哥 Bruno Mars 的金曲 Uptown Funk，从视频12秒之后的都是 Jukebox 自己生成补完的。感觉神经网络跟“哈利路亚”这句较上劲了：
最后，再让我们来看一下 OpenAI 的“人工智能套娃”：用 GPT-2 生成模型发明的歌词，再扔到 Jukebox 里，让它自己编出一首歌。这首歌借用的是水果姐 Katy Perry 的风格。据听过的网友表示，这首歌貌似还混了一点A妹 Ariana Grande 和 Radiohead 的风格金曲：微信文章只能放三条视频，不过 OpenAI 还有成百上千条 Jukebox 生成的样歌，你可以到 https://jukebox.openai.com/ 网站上面试听。比如这首四分之一 Frank Sinatra + 四分之三 Alan Jackson 演唱的流行+乡村风格 City of Stars……真是闻所未闻的混搭风格。

Jukebox 实现了哪些突破？

截至 Jukebox 之前，已知的基于机器学习的音乐生成技术，已经能够整合多种乐器的音色，生成复杂的音乐。但是有一件事一直以来困扰着研究者：用人工智能无法生成音乐中重现人声，捕捉不同人的不同的音色和声音动态和表达风格。研究者们试过一些手段，比如在符号层面生成再用音频渲染，或者采用风格迁移的方式，但是效果都不好。
OpenAI 决定采用直接在原始音频层级（音频文件的数字浮点层面）上开展工作。但是如果用 44.1kHz率，就意味着每秒钟有4.41万次采样，计算量太大。所以他们决定采用 VQ-VAE (vector quantization variational autoencoder)，一种可以用于图像、音频和语言的，编码-解码式的生成模型。OpenAI 的实现逻辑，简单来说就是先把原始音频编码成数据，训练，然后再用****重建成音频。也正是通过这种方式，Jukebox 在更高工作效率和歌曲拟真程度基础上，还能生成多变的、以假乱真的人声。论文中的流程图：容易理解的示意图：先需要一个压缩的过程，用卷积神经网络 (CNN) 作为一个编码器模型，将原始 44.1kHz 采样率的音频数据压缩到每秒钟344个采样，作为训练素材。在压缩的步骤中，OpenAI 使用的就是 VQ-VAE 模型，并且加上了三个层级，分别压缩8倍、32倍和128倍，倍数越高压缩掉的细节越多，但是仍能够保留素材本身的音调、音色等关键信息。

到了生成的步骤，用训练好的神经网络模型 (transormer) 生成新的音频，再用 transformer 和 CNN 进行上采样 (upsample) 和解码。生成的过程中同样进行了三次上采样，最高一层生成基础旋律和歌唱，中间和底层则为歌曲增加更多的音色细节，显著提高最终生成歌曲的音质。当生成步骤的模型训练完成后，你可以简单理解为，OpenAI 的研究人员已经获得了不同的音乐类型、歌手和歌词所对应的“代码”。接下来，前面压缩的部分就不再需要了，只需要输入对应的代码，生成模型就可以开始解码并自动生成一首类型、歌手和歌词对应的新歌。

Jukebox 训练细节

在训练数据方面，OpenAI 制作了一个超过120万首歌（其中60万首英文歌）的数据库，配上歌词网站抓取了对应的歌词和元数据。然后，按照前面提到的流程，对原始的音频数据进行下采样，还混合了左右声道来生成单声道的音频。
研究者训练 transformer 去预测压缩后的音频数据点 (audio token)，再把对应的元数据（比如歌曲类型和歌手）一起加入。这样在后续的生成步骤中，他们就可以更换不同的歌手和类型，让同一段原始数据可以生成千变万化的不同歌曲。在无监督学习的前提下，transformer 能够获得将风格近似的歌手自动归类的能力。以下就是模型自己学习出来的分类结果：接下来，更难的挑战来了：如何把歌词数据加入到训练过程里。网上找到的歌词，往往跟歌曲对应的不是很好，比如歌曲里重复的段落在歌词里没有重复，比如同一首歌被多人演唱过，所以歌词不能直接拿来用。训练过程中还发现，歌词处理对于嘻哈音乐是最困难的（可能是因为重复的实在太多了……）所以研究者又加上了新的基于神经网络的工具：Spleeter，可以从歌曲中提取人声进行语音识别；NUS AutoLyricsAlign，把歌词和歌曲进行对齐；注意力机制，让解码出来的音乐，随着播放的进度，注意歌词编码的位置变化：这个注意力机制值得稍微展开一讲。上图中的横轴是音乐进度，纵轴是歌词进度，可以看到这条线大部分时候是实的，偶尔会有模糊的地方，就是歌曲到哪里不知道该唱什么了……
这种意外在 OpenAI 提供的样歌里经常出现，比如你可以回去听一下埃米纳姆和坎爷的那首 Lose Yourself，会发现到后半部分歌词就完全乱了，完全真不知道它想唱什么。然后有时能重新找到歌词，有些再也找不回来。下图更明显：闪过橙色的位置就是当前模型对歌词的注意力所在的区域，能看到可以看到歌词先是顺着走了一小段，然后就跑到九霄云外了，像是喝醉了一样……（是不是有点像照着歌词本学一首新歌时找不到北的感觉？）

Jukebox 的局限和展望

Jukebox 在生成的音乐素质、连贯性、样歌长度和可调节自由度等方面，都足以代表人工智能音乐生成的顶端水平。不过 OpenAI 指出，它还有很多不足的方面，和人类创造的音乐还差很远。1）在流行的音乐种类下无法复现人类常见的歌曲结构，比如副歌的重复等等；2）压缩和上采样的过程会带来明显的噪音——不过这一点网友似乎没有太多意见，有些人反而觉得有种硅胶和电台时代的迷人音质；3）让一首歌到达能听的程度，生成所需的时间在9个小时左右，所以暂时没办法把它开发成一个产品去使用；4）目前主要聚焦于英语歌曲，不过未来团队也希望能够训练更多语种。虽然已经发布了 Jukebox，OpenAI 仍在持续进行改进。比如，他们正在测试在压缩过程中引入 MIDI 文件调节，从而提高生成样歌的音乐性 (musicality)，并且已经取得了初步成功。这有助于在未来让更多音乐人可以利用 Jukebox 背后的技术。

其它 AI 生成音乐技术

自动音乐生成其实已经不是一项很新的技术了。即使在人工智能的方向上，也已经有很多前序的研究，其中有不少也启发了 Jukebox。

已知最早的利用计算机算法生成音乐的案例是在1960年，由俄罗斯科学家 R. Zaripov 在乌拉尔一号计算机上实现的。

1997年，UC Santa Cruz 教授 David Cope 开发的软件 EMI，在一次音乐领域的图灵测试中顺利通过了考验：它生成的一首作品因为和巴赫的风格实在太像，一度被听众以为是遗失的作品。

反而同场竞技的音乐教授 Steve Larson 自己写的一首曲子被认为像是计算机写的……

David Cope

OpenAI 在去年就曾发布过一个早期版本的人工智能音乐生成模型 MuseNet。它可以结合最多10种不同乐器的音色，生成古典、摇滚、乡村等多种不同风格，长达4分钟的乐曲（不包含歌唱）。

MuseNet 和 Jukebox 类似，也利用了 OpenAI 在 GPT-2 生成模型上的研究。理论上，GPT-2 背后的技术是预测下一个 token，此前我们感受过它写诗和编假新闻的能力，当然它同样也可以把 token 从文字换成音乐。

研究人员先是给了 Adele 的 Someone like You 几个音节的前奏，在其中一条生成的结果中，MuseNet 预测出的随后几个音节和原歌几乎一模一样，不过再往后就跑偏了……不过仍堪称非常令人惊讶的结果。

商业视频需要音乐伴奏，不过寻找最适合一条视频的音乐往往不是件容易的事情，找到了之后还要寻找授权，难上加难。Aiva 就是专门解决这个问题的。

这是一家由计算机科学家和音乐人组成的公司，他们开发的同名人工智能 Aiva 能够根据用户指定的风格需要，生成全新、不需要担心版权的歌曲。

它能够驾驭的曲风包括电影背景音、电子乐、流行、古典、交响、爵士、中国风、海盗歌等等。包括英伟达、沃达丰、TED 等知名公司和机构都在使用。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。