Suno引爆音乐圈，与音乐人聊聊AI生成音乐与艺术的随机数界面新闻·JMedia|ai彩票分析软件_彩票

业内人士怎么看Suno为代表的文生音乐模型？AI如何影响音乐产业的未来？

文|硅谷101杜秀

采访|泓君

AIGC的风终究是吹到了音乐圈——今年3月，“音乐届的ChatGPT”SunoV3粉墨登场，用户只需要在Suno上输入一句话的提示词，即可在数秒内生成两首两分钟的完整歌曲，从作词、作曲、演奏到人声演唱一气呵成，大大降低了普通人创作音乐的门槛。

本期亮点：

为什么大家感觉是Suno是最火的呢？因为他敢最先把文生音乐模型公之于众

【测评一】“找不到工作的悲伤摇滚乐”，结果并不悲伤

能听但没有态度，AI只能写出不愤怒的摇滚乐

AI写的歌可以达到业界平均水平，但无法出挑成为头部作品

速度是音乐创作最重要的指标之一，为什么AI写不出80BPM的音乐？

AI写歌与人类作曲不是一个逻辑，只能从左到右按顺序写，没有全局观训练素材足够全面和丰富，AI可能写出TaylorSwift水平的歌曲

同样的音乐，水平不同的演唱者演奏出来也不一样

【测评二】英雄主题的交响乐，听感能得7分，作为乙方它不及格

Suno不能按提示词生成指定的乐器，它只追求听上去大概相似

AI生成音乐是无法抗拒的洪流，但暂时做不到像音乐家一样写歌

【测评三】挑战规则严谨的赋格，Suno会表现得更好吗？

赋格研究在AI音乐有20年历史，不过在巴赫的原曲面前还很稚嫩

音乐技术与心理学：Mp3技术是如何被发明出来的？

音乐的本质是“有组织的声音”，这是文生音乐大模型的底层逻辑

最怕无聊？艺术需要跳出人类总结

创作者的脑洞大开：在音乐里加入随机数机制

《硅谷101》：除了Suno以外，最近还有其他的几款生成音乐的软件，为什么感觉是Suno是最火的呢？

Roger：因为Suno是最胆大的，敢最先发布他们的AI生成音乐的模型。其他大公司，比如说Facebook、Google，其实技术是领先的，但有很多的考虑，除了把这个技术发布出去，还要考虑它可能会对社会造成的影响。

那让我们先听一听Suno到底实力如何吧。请冯老师给大家做一个现场测试，挑战一些专业、有难度的音乐生成。我们也可以帮您出一些题，比如写一首悲伤的摇滚乐，主题是“失业”或者“面试失败”。

叨叨冯：好的，那我们就让Suno自己写歌词，我们在音乐的属性上做一些限定：sadstoryofnotfindingajob,ClassicRock,80BPM,Guitar,Base,Drum,Keyboard.

《硅谷101》:它自己取的这个名字还挺有艺术感。

叨叨冯：我觉得从它生成词来说，跟我的主题是符合的。但是从音乐的角度来说，我们指定的是“sadstory”，我没有听出太多的态度。音乐本身是averagelevel，可以符合我们的要求，至少说有摇滚的意思。

我之前测试了很多中文歌曲，相比较之下，英文歌曲在AI生成时似乎更加成熟一些。AI对英文歌词的理解以及转换成音乐的能力似乎更进一步。但在音乐本身的结构上，比如摇滚乐，它通常包含两个verse（主歌）和随后的chorus（副歌）。在AI生成的音乐中，从主歌过渡到副歌时，感觉缺少了一种递进感，一种推动力。也就是说，我们能听到主歌直接切换到了副歌，缺少了那种在器乐上逐渐构建起来、推向高潮的“buildup”（积累感），就像是在达到高潮前需要有一个积累、然后爆发的过程，而AI生成的音乐缺少了这最后的推动。

然而，AI在两个主歌之间的区分上做得还不错，生成了一个较好的间奏。在音乐创作中，如果由人类来作曲，通常主歌之间的情绪变化不会太大，但主歌过渡到副歌时，情绪变化会更明显。

AI创作音乐时，相比真人作曲，最大的问题在于它缺乏一种“态度”。换句话说，它缺少一个创作的动机。如果我是一个真人作曲家，写歌背后一定有一些具体的原因，比如找不到工作的沮丧，或者对某些事情的愤怒。这些情绪会让音乐听起来更具有相应的情感色彩。

目前AI生成的音乐，虽然能满足基本的文字描述需求，但在作曲和编曲中体现人类情感方面，我的测试结果显示AI暂时还做不到。音乐之所以成为经典，是因为它承载的人文精神和态度引起了人们的共鸣。尽管有成千上万首摇滚乐，但只有少数几首能够成为传世之作。AI生成的音乐虽然可以创作出来，但很难在行业中出类拔萃，因为它缺乏那种能引起共鸣的态度。因此，在这个层面上，AI还没有完全能够取代人类作曲家的情感。

《硅谷101》:人类作曲要表达情感和共鸣，有时还需要一些运气。如果与整个音乐圈的平均水平相比，你认为AI达到了吗？

叨叨冯：我认为AI的音乐生成能力可以说接近人类的平均水平。如果我们对一万首歌进行排名，AI的音乐可能处于中间位置，比如第四千到第六千首之间。

但问题在于，在音乐产业中，仅仅达到平均水平可能还不足以脱颖而出。我们能想到的经典摇滚乐，每个人可能只能列举出100首或200首真正能够记住并愿意付费去听的作品。而剩下的作品，尽管它们可能高于平均水平，但并不足以在行业中成为顶尖，能够养活一个专业的音乐人，它是否能在音乐产业中生存下去，还是一个问题。

《硅谷101》:你刚才提到写了80BPM，但AI似乎无法理解这个指标。这个指标代表什么？

叨叨冯：BPM指的是每分钟80拍，它是音乐速度的一个指标。在音乐中，速度可能是最重要的元素之一。同一首歌，如果把速度放慢两三倍，原本欢快的歌可能就会听起来悲伤；反之，加快速度则可能让悲伤的歌听起来快乐。电影《大腕》中有一个桥段展示了这一点，哀乐加快后听起来就像节日音乐。尽管我相信技术上可以实现，但目前测试结果看来，AI在这方面的控制还不成熟。

《硅谷101》：也跟Roger请教，为什么我们觉得生成的音乐不够悲伤？是因为它不能理解“悲伤”的概念，还是因为它的生成方式做不到？Roger：冯老师刚才提到，如果对一万首歌进行排序，AI生成的音乐可能排在后7000到8000首，无法达到顶尖水平。这种现象与AI使用的大模型和训练数据有关。

音乐产业是一个头部效应明显的产业，大量的作品其实只能排在尾部。

另一个问题是，当我们听AI生成的音乐时，可能会感觉到不同段落之间的过渡很突然，比如从第一节（Verse1）到副歌（Chorus）的过渡。这是因为人类作曲通常采用自上而下的逻辑，先确定整体结构，如AABA形式，然后再逐步确定每个部分的和弦进行和配器。

相反，AI模型的生成过程是自左到右的，它没有全局视角，是一步步生成音乐。因此，有时音乐的变化会显得很突然。比如，在生成八句歌词时，如果按照预期每个小节应该唱一句，但AI有时可能会在一个小节中塞入两句歌词，导致后续缺少一句。为了解决这个问题，AI可能会强行加入一句歌词，或者直接通过加入鼓点等手段过渡到下一个部分，这些都是在音乐构建（buildup）过程中可能遇到的问题。

至于AI为什么无法理解BPM，这让我感到非常惊讶。因为在训练数据中，每首歌的BPM都是有明确标记的。但AI可能并没有利用这些信息，或者在当前版本的模型中，BPM并不是一个重要的考量因素。从技术上讲，这是一个容易解决的问题。

Roger：是的，理论上只要训练数据足够优秀，AI就可以做到。但训练数据不仅仅是音频本身，还需要适当的描述。如果你只是下载了Spotify上的歌曲而不加描述，AI并不知道要学习什么。你必须告诉AI，比如Coldplay的"Yellow"是一首什么样的歌，这样下次AI在看到相似的描述时，就知道要生成一首类似"Yellow"的歌曲。

《硅谷101》：但如果AI生成了一首非常类似于"Yellow"的歌，而且连声音都模仿了Coldplay，这是不是就构成侵权了？

Roger：除非未来能和音乐人达成某种和解。音乐人可能会意识到，一旦打开了潘多拉的魔盒，就无法再收回。他们可能只能接受AI生成音乐的现实，只要给予他们适当的报酬。

Roger：是的，一般来说是作曲家去世后70年，作品就会进入公共领域。

《硅谷101》:这意味着可以使用软件一些合成数据，比如先让电脑根据乐谱自动生成声音，然后再用这些合成的声音去训练AI模型，这样做是可以的。

《硅谷101》:我们刚才讨论了那些历史上非常经典的乐曲，它们在作者去世70年后可以免费使用，这样的乐曲数据库大吗？

《硅谷101》:那我们刚才测试了摇滚乐，现在试试古典乐。

叨叨冯：好的，没问题。这次我们用器乐（instrumental）来测试，我会尝试指定一些乐器。我们希望它生成一个以“英雄”为主题的交响乐，指定弦乐、木管、铜管和打击乐中的定音鼓等乐器，这些都是比较常见的配置。

叨叨冯：我们来听一听第二首，因为Suno会同时生成两首，可能差别还挺大的。

叨叨冯：我认为第二首曲子相比第一首，听起来更具有英雄气质，同时也更接近交响乐的风格。不过，我个人感觉两首都有点像电影配乐，和真正的交响音乐相比，可能还欠缺一些。

这首曲子在旋律写作和节奏上比之前的更接近古典音乐，整体上重复性不高，有了一定的动机并逐渐发展。但要达到真正交响乐的形式，还有一定差距。

还有一个问题是，就是我生成的音乐中有些部分还可以，但感觉像是中彩票一样，有一定的偶然性。虽然有些部分写作水平不错，但对于我特别指定的一些乐器的要求，AI并没有很好地达到。如果我是甲方，而AI是乙方，我会认为乙方没有完全满足我的要求。

《硅谷101》:能否把AI生成的曲子拿出来，自己再添加一些乐器，修改成甲方能接受的音乐水平？

叨叨冯：这是可能的，但工作量会非常大。现在大家经常开玩笑说，用AI生成的音乐来找灵感比较合适：AI写了一段音乐，可以从中抓取几个小节，作为一个主题（Motive），然后拓展成一首大型交响乐。但要直接用AI生成的作品，目前看来与交响乐的标准还有一定差距。

《硅谷101》:如果满分是10分，你给AI生成的音乐打多少分？

叨叨冯：从写作听感上来说，可以打6到7分，至少听起来很像那么回事了。如果从严格的角度来说，比如满足乐器要求，我可能只给它打5分。

《硅谷101》:那Roger你怎么看？它可能miss掉了我们一些要求它使用的乐器。

Roger：关于第一首曲子当我们在第二次尝试中加入了“十九世纪”这样的标签后，效果有所改善。这归结于训练数据的问题。训练数据集中有两类弦乐流派，AI需要理解并匹配相应的标签来生成音乐。对于古典音乐，有一个专门的流派叫做“masterworks”，AI必须理解这些术语才能正确生成音乐。如果我们想生成更好的音乐，需要研究训练数据集的标签，这可以提供一些灵感。

关于为什么AI无法精确地复现指定的木管和铜管声音。AI在生成音乐时，并不是基于单个乐器的模型，而是通过分析大量的录音，抽象出音乐的基本元素，然后将这些元素组合起来。AI并没有真正理解什么是铜管或木管，它只是根据提供的特征来生成听起来符合这些特征的音乐。未来的发展方向可能包括声源分离技术的进步，这将允许我们把现有的录音分离成单独的音轨（STEMs），然后对每种乐器进行单独训练，从而让AI对每种乐器有更深入的理解。

谈到AI为音乐人提供灵感的潜力，目前AI主要支持文字输入这一种方式。但技术上，同样的AI架构也完全能够支持音频输入。例如，如果能够允许用户输入一首古典音乐作品，比如莫扎特的曲子，然后通过文字指示AI添加电子鼓等元素，并观察AI如何融合这些元素生成新的音乐，这可能对音乐创作者来说是一个非常有用的工具。

然而，目前的AI音乐生成工具非常大众化，它们假设用户对音乐一无所知，只能通过文字来描述他们想要的音乐风格或元素。这种设计在商业化方面可能是成功的。我相信会有更多公司进入这个细分市场，开发出更专业、更适合音乐人的AI音乐生成工具。

《硅谷101》:冯老师，对于Sono这样的AI音乐产品，我想知道音乐人的普遍态度，是欢迎还是有些抵触？

叨叨冯：我不能代表所有音乐人，只能表达我个人的看法。我知道有些音乐人，比如纽约的200多位艺术家公开对AI技术表示抵制。AI对我们行业确实带来了冲击。我的态度是谨慎乐观。

首先，我们无法抗拒技术发展的潮流。对于低成本音乐制作，AI也有很大的帮助。但我并不特别恐慌，因为人类音乐有一些独特的特性，目前的AI还无法完全实现。

AI主要是基于统计学的，而音乐创作需要更深层次的逻辑和文化积淀。除非AI能跨越基于统计学的局限，发展出真正的智能和创造力，否则我不认为它会对整个音乐行业构成威胁。

我认为AI可以成为音乐人的有力工具，帮助提高创作效率。但AI还无法完全取代人类的创造力和情感表达。

《硅谷101》：在进行AI生成赋格音乐的测试之前，能否先向大家解释一下什么是赋格？然后我们可以播放一首历史上的标准赋格作品，接着对比听听AI生成的赋格。

在赋格中，通常有一个主题（subject），随后会有其他声部对其进行回应（answer）。通过这种方式，以及一些变化技巧，构建出整个作品。赋格的写作有很多系统性的规则，这些严格的规则最终限制了它的进一步发展。音乐家们觉得需要打破这些框架，探索更多创新的可能性，这也是为什么赋格并没有从文艺复兴时期一直延续到20世纪。

叨叨冯：好的，这个提示词描述的是一个d小调的托卡塔与赋格，需要有阴暗和戏剧性的效果，有管风琴独奏，整体给人一种严肃而有力的感觉。这个提示词描述的是巴赫非常著名的曲子，可能是大家最熟悉的作品之一。

AI生成的结果已经出来了，配图是一个教堂，非常贴切。

叨叨冯：我觉得AI生成的音乐在感觉上很像原曲，但实际差距还是比较明显的。尤其是如果你听过巴赫的原曲，你会发现开头的部分非常震撼。这种震撼感是在教堂或广阔空间中听时最为强烈的。

《硅谷101》：我们来听一下原曲吧。

叨叨冯：我们只比较一下开头的部分。巴赫的曲子开头的震撼感，以及随后清晰的各个声部，是AI目前训练方式难以直接达到的。我最想强调的是，AI生成的曲子在给人的第一印象上与原曲有较大差别。巴赫的曲子在声部的处理上非常清晰，而AI生成的曲子在这方面则显得有些模糊。

在赋格音乐中，有两个声部互相呼应是非常明显的特征。首先是第一个声部提出一个主题，第二个声部对这个主题进行重复，形成一种对话的效果。在赋格写作中，同样的旋律会在不同的声部中重复并进行变奏，但即便在变奏过程中，听众仍然能够识别出它们源自同一主题。

然而，在刚才AI生成的音乐中，声部之间的这种呼应和主题的一致性并不明显，可以说是相当模糊。对我来说，AI生成的音乐听起来混杂不清，各个声部的声音黏在一起。虽然可以辨认出是管风琴的声音和两个声部的存在，但是它们缺乏清晰的主题性和严谨的逻辑性，这是AI目前尚未能够实现的部分。

《硅谷101》：赋格音乐的逻辑性非常严谨，这是否意味着它更适合AI生成？因为AI擅长处理逻辑和公式化的任务。Roger：AI音乐领域的研究确实已经进行了很多年，包括赋格音乐。巴赫的乐谱在网上很容易找到，AI可以利用这些逻辑性强的音乐数据进行建模。在符号层面，AI已经能够很好地模拟赋格音乐，包括主题和变奏。

但是，目前的端到端生成系统，比如Suno，并不是专门用于生成赋格音乐的。AI生成的效果取决于它的训练数据，如果AI只听过一首赋格曲目，它可能无法很好地学习。在AI音乐生成中，偏向于逻辑推理的AI系统在处理赋格音乐这类音乐时可能会表现得更好。04创作者的脑洞大开：在音乐里加入随机数机制

《硅谷101》：冯老师作为专业音乐人，您有没有关于用AI创作音乐的特别问题？

叨叨冯：我们通常认为伟大的作曲家是靠灵感创作，但我认为音乐可能更多地与认知科学有关。所有情绪和思维最终都可以归结为电信号或化学物质。

为什么某些音乐让人感觉欢乐，而另一些让人感觉悲伤？AI在音乐研究过程中与音乐学科有很多交叉，可以进行很多有趣的研究。

《硅谷101》：冯老师曾提到音乐最怕无聊，AI将来能否克服这个问题，创作出既符合逻辑又出人意料的音乐？

叨叨冯：AI能否无中生有，这是关键问题。AI在现有知识的基础上能做得很好，但音乐的发展需要创新，比如从爵士乐发展出摇滚乐。目前AI的工作原理还是基于统计学，它总结人类已有的音乐来生成新作品。艺术需要在人类知识范围之外有所突破，而AI目前还做不到这一点。

如果AI能超越现有模型，发展出真正的创新，那将是非常了不起的。虽然这样的发展还有很长的路要走，但如果AI能演算并发展出全新的音乐形式和风格，我会感到非常兴奋，即便这可能带来一些道德和伦理上的挑战。

《硅谷101》：从技术角度来看，Roger你认为AI是否能够克服生成音乐中的单调和无聊？

Roger：我认为在一定程度上是可能的。音乐就是有组织的声音，某些音乐流派实际上是对现有元素的重新排列组合。例如，不同的节奏模式可以让音乐听起来完全不同，尽管使用的乐器可能相似。这种重新排列组合的方式，包括现在很多流派，如嘻哈音乐的一些分支，都在节奏上进行创新。如果给AI足够的数据和计算能力，它理论上能够生成符合人类审美的、前所未有的音乐组合。但AI可能无法自动筛选出这些创新组合，这就需要人类的审美参与，进行选择和指导。长期来看，可能会有很多人尝试各种音乐融合，结合非洲、拉丁等民族元素与电子音乐等，创造出新奇的音乐流派。关键在于是否有人能够捕捉到这些创新，并在人类社会中推广它们。

随着人类创作出更多优秀的音乐作品，AI也将获得更高质量的训练数据，形成一种人类与AI共同发展的反馈循环。AI将推动人类音乐家创作出更优秀的作品，而AI自身也将在吸收了这些优秀作品后不断进步。我认为，20年后，无论是人类音乐还是AI音乐，都将达到更高的水平，实现共存和共同进步。

《硅谷101》：这种AI音乐创作的过程，听起来有点像是朝着通用人工智能（AGI）的方向发展。

叨叨冯：我想补充一个可能听起来很无知的建议。目前的AI在一定程度上遵循我们给它设定的标签和逻辑，是否可以在AI中引入一个随机数机制，让AI生成一些真正的随机性，比如新的音色或节奏型。这样可能会产生更新颖、更有趣的结果，而不仅仅是现有元素的重新组合。

这有点像是“上帝掷骰子”的概念。虽然人类作曲家一直在尝试不同的音乐组合，但加入随机性可能会带来真正的创新。我不知道AI是否能够实现这一点。Roger：实际AI中已经存在一定程度的随机性。比如，即使输入相同的prompt，AI也能输出两首不同的歌曲。这种随机性是在生成过程的每一步中引入的，AI在生成每一小段音频时都会有一定的随机选择。

此外，AI模型中有一个叫做“温度”的参数，可以调整随机性的程度。如果设置得较低，AI会严格按照最大概率选择下一步；如果设置得较高，AI会更愿意探索不那么大概率的选项，从而可能产生一些惊喜。

目前的随机性主要是在生成过程中引入的，但未来我们可能会尝试更多样的随机性，比如在人类能理解的语义层面上进行控制。这样的随机性可能会带来更丰富、更有趣的音乐创作结果。

掩蔽效应：是指由于出现多个同一类别（如声音、图像等）的刺激，导致被试不能完整接受全部刺激的信息。具体分为视觉掩蔽效应和听觉掩蔽效应。其中，听觉掩蔽效应是指人的耳朵只对最明显的声音反应敏感，而对于不敏感的声音，反应则较为不敏感。例如在声音的整个频率谱中，如果某一个频率段的声音比较强，则人就对其它频率段的声音不敏感了。

THE END

Suno引爆音乐圈，与音乐人聊聊AI生成音乐与艺术的随机数界面新闻·JMedia

人工智能预测足彩命中18场彩票新手如何购彩才能赚钱?

A股“彩票龙头”突发！聘任她为副总经理，负责AI业务，曾是知名媒体记者？股价刚强势涨停

Suno引爆音乐圈，与音乐人聊聊AI生成音乐与艺术的随机数界面新闻·JMedia

英媒：人工智能正在取代初级律师

英荔教育：以AI想象力创造力教育助阵中小学科学教育高品质发展@MobeeHoran永州新闻网

一家印彩票的公司，靠英伟达暴涨175亿澎湃号·湃客澎湃新闻