Suno引爆音乐圈,与音乐人聊聊AI生成音乐与艺术的随机数界面新闻·JMedia

业内人士怎么看Suno为代表的文生音乐模型?AI如何影响音乐产业的未来?

文|硅谷101杜秀

采访|泓君

AIGC的风终究是吹到了音乐圈——今年3月,“音乐届的ChatGPT”SunoV3粉墨登场,用户只需要在Suno上输入一句话的提示词,即可在数秒内生成两首两分钟的完整歌曲,从作词、作曲、演奏到人声演唱一气呵成,大大降低了普通人创作音乐的门槛。

本期亮点:

为什么大家感觉是Suno是最火的呢?因为他敢最先把文生音乐模型公之于众

【测评一】“找不到工作的悲伤摇滚乐”,结果并不悲伤

能听但没有态度,AI只能写出不愤怒的摇滚乐

AI写的歌可以达到业界平均水平,但无法出挑成为头部作品

速度是音乐创作最重要的指标之一,为什么AI写不出80BPM的音乐?

AI写歌与人类作曲不是一个逻辑,只能从左到右按顺序写,没有全局观训练素材足够全面和丰富,AI可能写出TaylorSwift水平的歌曲

同样的音乐,水平不同的演唱者演奏出来也不一样

【测评二】英雄主题的交响乐,听感能得7分,作为乙方它不及格

Suno不能按提示词生成指定的乐器,它只追求听上去大概相似

AI生成音乐是无法抗拒的洪流,但暂时做不到像音乐家一样写歌

【测评三】挑战规则严谨的赋格,Suno会表现得更好吗?

赋格研究在AI音乐有20年历史,不过在巴赫的原曲面前还很稚嫩

音乐技术与心理学:Mp3技术是如何被发明出来的?

音乐的本质是“有组织的声音”,这是文生音乐大模型的底层逻辑

最怕无聊?艺术需要跳出人类总结

创作者的脑洞大开:在音乐里加入随机数机制

《硅谷101》:除了Suno以外,最近还有其他的几款生成音乐的软件,为什么感觉是Suno是最火的呢?

Roger:因为Suno是最胆大的,敢最先发布他们的AI生成音乐的模型。其他大公司,比如说Facebook、Google,其实技术是领先的,但有很多的考虑,除了把这个技术发布出去,还要考虑它可能会对社会造成的影响。

那让我们先听一听Suno到底实力如何吧。请冯老师给大家做一个现场测试,挑战一些专业、有难度的音乐生成。我们也可以帮您出一些题,比如写一首悲伤的摇滚乐,主题是“失业”或者“面试失败”。

叨叨冯:好的,那我们就让Suno自己写歌词,我们在音乐的属性上做一些限定:sadstoryofnotfindingajob,ClassicRock,80BPM,Guitar,Base,Drum,Keyboard.

《硅谷101》:它自己取的这个名字还挺有艺术感。

叨叨冯:我觉得从它生成词来说,跟我的主题是符合的。但是从音乐的角度来说,我们指定的是“sadstory”,我没有听出太多的态度。音乐本身是averagelevel,可以符合我们的要求,至少说有摇滚的意思。

我之前测试了很多中文歌曲,相比较之下,英文歌曲在AI生成时似乎更加成熟一些。AI对英文歌词的理解以及转换成音乐的能力似乎更进一步。但在音乐本身的结构上,比如摇滚乐,它通常包含两个verse(主歌)和随后的chorus(副歌)。在AI生成的音乐中,从主歌过渡到副歌时,感觉缺少了一种递进感,一种推动力。也就是说,我们能听到主歌直接切换到了副歌,缺少了那种在器乐上逐渐构建起来、推向高潮的“buildup”(积累感),就像是在达到高潮前需要有一个积累、然后爆发的过程,而AI生成的音乐缺少了这最后的推动。

然而,AI在两个主歌之间的区分上做得还不错,生成了一个较好的间奏。在音乐创作中,如果由人类来作曲,通常主歌之间的情绪变化不会太大,但主歌过渡到副歌时,情绪变化会更明显。

AI创作音乐时,相比真人作曲,最大的问题在于它缺乏一种“态度”。换句话说,它缺少一个创作的动机。如果我是一个真人作曲家,写歌背后一定有一些具体的原因,比如找不到工作的沮丧,或者对某些事情的愤怒。这些情绪会让音乐听起来更具有相应的情感色彩。

目前AI生成的音乐,虽然能满足基本的文字描述需求,但在作曲和编曲中体现人类情感方面,我的测试结果显示AI暂时还做不到。音乐之所以成为经典,是因为它承载的人文精神和态度引起了人们的共鸣。尽管有成千上万首摇滚乐,但只有少数几首能够成为传世之作。AI生成的音乐虽然可以创作出来,但很难在行业中出类拔萃,因为它缺乏那种能引起共鸣的态度。因此,在这个层面上,AI还没有完全能够取代人类作曲家的情感。

《硅谷101》:人类作曲要表达情感和共鸣,有时还需要一些运气。如果与整个音乐圈的平均水平相比,你认为AI达到了吗?

叨叨冯:我认为AI的音乐生成能力可以说接近人类的平均水平。如果我们对一万首歌进行排名,AI的音乐可能处于中间位置,比如第四千到第六千首之间。

但问题在于,在音乐产业中,仅仅达到平均水平可能还不足以脱颖而出。我们能想到的经典摇滚乐,每个人可能只能列举出100首或200首真正能够记住并愿意付费去听的作品。而剩下的作品,尽管它们可能高于平均水平,但并不足以在行业中成为顶尖,能够养活一个专业的音乐人,它是否能在音乐产业中生存下去,还是一个问题。

《硅谷101》:你刚才提到写了80BPM,但AI似乎无法理解这个指标。这个指标代表什么?

叨叨冯:BPM指的是每分钟80拍,它是音乐速度的一个指标。在音乐中,速度可能是最重要的元素之一。同一首歌,如果把速度放慢两三倍,原本欢快的歌可能就会听起来悲伤;反之,加快速度则可能让悲伤的歌听起来快乐。电影《大腕》中有一个桥段展示了这一点,哀乐加快后听起来就像节日音乐。尽管我相信技术上可以实现,但目前测试结果看来,AI在这方面的控制还不成熟。

《硅谷101》:也跟Roger请教,为什么我们觉得生成的音乐不够悲伤?是因为它不能理解“悲伤”的概念,还是因为它的生成方式做不到?Roger:冯老师刚才提到,如果对一万首歌进行排序,AI生成的音乐可能排在后7000到8000首,无法达到顶尖水平。这种现象与AI使用的大模型和训练数据有关。

音乐产业是一个头部效应明显的产业,大量的作品其实只能排在尾部。

另一个问题是,当我们听AI生成的音乐时,可能会感觉到不同段落之间的过渡很突然,比如从第一节(Verse1)到副歌(Chorus)的过渡。这是因为人类作曲通常采用自上而下的逻辑,先确定整体结构,如AABA形式,然后再逐步确定每个部分的和弦进行和配器。

相反,AI模型的生成过程是自左到右的,它没有全局视角,是一步步生成音乐。因此,有时音乐的变化会显得很突然。比如,在生成八句歌词时,如果按照预期每个小节应该唱一句,但AI有时可能会在一个小节中塞入两句歌词,导致后续缺少一句。为了解决这个问题,AI可能会强行加入一句歌词,或者直接通过加入鼓点等手段过渡到下一个部分,这些都是在音乐构建(buildup)过程中可能遇到的问题。

至于AI为什么无法理解BPM,这让我感到非常惊讶。因为在训练数据中,每首歌的BPM都是有明确标记的。但AI可能并没有利用这些信息,或者在当前版本的模型中,BPM并不是一个重要的考量因素。从技术上讲,这是一个容易解决的问题。

Roger:是的,理论上只要训练数据足够优秀,AI就可以做到。但训练数据不仅仅是音频本身,还需要适当的描述。如果你只是下载了Spotify上的歌曲而不加描述,AI并不知道要学习什么。你必须告诉AI,比如Coldplay的"Yellow"是一首什么样的歌,这样下次AI在看到相似的描述时,就知道要生成一首类似"Yellow"的歌曲。

《硅谷101》:但如果AI生成了一首非常类似于"Yellow"的歌,而且连声音都模仿了Coldplay,这是不是就构成侵权了?

Roger:除非未来能和音乐人达成某种和解。音乐人可能会意识到,一旦打开了潘多拉的魔盒,就无法再收回。他们可能只能接受AI生成音乐的现实,只要给予他们适当的报酬。

Roger:是的,一般来说是作曲家去世后70年,作品就会进入公共领域。

《硅谷101》:这意味着可以使用软件一些合成数据,比如先让电脑根据乐谱自动生成声音,然后再用这些合成的声音去训练AI模型,这样做是可以的。

《硅谷101》:我们刚才讨论了那些历史上非常经典的乐曲,它们在作者去世70年后可以免费使用,这样的乐曲数据库大吗?

《硅谷101》:那我们刚才测试了摇滚乐,现在试试古典乐。

叨叨冯:好的,没问题。这次我们用器乐(instrumental)来测试,我会尝试指定一些乐器。我们希望它生成一个以“英雄”为主题的交响乐,指定弦乐、木管、铜管和打击乐中的定音鼓等乐器,这些都是比较常见的配置。

叨叨冯:我们来听一听第二首,因为Suno会同时生成两首,可能差别还挺大的。

叨叨冯:我认为第二首曲子相比第一首,听起来更具有英雄气质,同时也更接近交响乐的风格。不过,我个人感觉两首都有点像电影配乐,和真正的交响音乐相比,可能还欠缺一些。

这首曲子在旋律写作和节奏上比之前的更接近古典音乐,整体上重复性不高,有了一定的动机并逐渐发展。但要达到真正交响乐的形式,还有一定差距。

还有一个问题是,就是我生成的音乐中有些部分还可以,但感觉像是中彩票一样,有一定的偶然性。虽然有些部分写作水平不错,但对于我特别指定的一些乐器的要求,AI并没有很好地达到。如果我是甲方,而AI是乙方,我会认为乙方没有完全满足我的要求。

《硅谷101》:能否把AI生成的曲子拿出来,自己再添加一些乐器,修改成甲方能接受的音乐水平?

叨叨冯:这是可能的,但工作量会非常大。现在大家经常开玩笑说,用AI生成的音乐来找灵感比较合适:AI写了一段音乐,可以从中抓取几个小节,作为一个主题(Motive),然后拓展成一首大型交响乐。但要直接用AI生成的作品,目前看来与交响乐的标准还有一定差距。

《硅谷101》:如果满分是10分,你给AI生成的音乐打多少分?

叨叨冯:从写作听感上来说,可以打6到7分,至少听起来很像那么回事了。如果从严格的角度来说,比如满足乐器要求,我可能只给它打5分。

《硅谷101》:那Roger你怎么看?它可能miss掉了我们一些要求它使用的乐器。

Roger:关于第一首曲子当我们在第二次尝试中加入了“十九世纪”这样的标签后,效果有所改善。这归结于训练数据的问题。训练数据集中有两类弦乐流派,AI需要理解并匹配相应的标签来生成音乐。对于古典音乐,有一个专门的流派叫做“masterworks”,AI必须理解这些术语才能正确生成音乐。如果我们想生成更好的音乐,需要研究训练数据集的标签,这可以提供一些灵感。

关于为什么AI无法精确地复现指定的木管和铜管声音。AI在生成音乐时,并不是基于单个乐器的模型,而是通过分析大量的录音,抽象出音乐的基本元素,然后将这些元素组合起来。AI并没有真正理解什么是铜管或木管,它只是根据提供的特征来生成听起来符合这些特征的音乐。未来的发展方向可能包括声源分离技术的进步,这将允许我们把现有的录音分离成单独的音轨(STEMs),然后对每种乐器进行单独训练,从而让AI对每种乐器有更深入的理解。

谈到AI为音乐人提供灵感的潜力,目前AI主要支持文字输入这一种方式。但技术上,同样的AI架构也完全能够支持音频输入。例如,如果能够允许用户输入一首古典音乐作品,比如莫扎特的曲子,然后通过文字指示AI添加电子鼓等元素,并观察AI如何融合这些元素生成新的音乐,这可能对音乐创作者来说是一个非常有用的工具。

然而,目前的AI音乐生成工具非常大众化,它们假设用户对音乐一无所知,只能通过文字来描述他们想要的音乐风格或元素。这种设计在商业化方面可能是成功的。我相信会有更多公司进入这个细分市场,开发出更专业、更适合音乐人的AI音乐生成工具。

《硅谷101》:冯老师,对于Sono这样的AI音乐产品,我想知道音乐人的普遍态度,是欢迎还是有些抵触?

叨叨冯:我不能代表所有音乐人,只能表达我个人的看法。我知道有些音乐人,比如纽约的200多位艺术家公开对AI技术表示抵制。AI对我们行业确实带来了冲击。我的态度是谨慎乐观。

首先,我们无法抗拒技术发展的潮流。对于低成本音乐制作,AI也有很大的帮助。但我并不特别恐慌,因为人类音乐有一些独特的特性,目前的AI还无法完全实现。

AI主要是基于统计学的,而音乐创作需要更深层次的逻辑和文化积淀。除非AI能跨越基于统计学的局限,发展出真正的智能和创造力,否则我不认为它会对整个音乐行业构成威胁。

我认为AI可以成为音乐人的有力工具,帮助提高创作效率。但AI还无法完全取代人类的创造力和情感表达。

《硅谷101》:在进行AI生成赋格音乐的测试之前,能否先向大家解释一下什么是赋格?然后我们可以播放一首历史上的标准赋格作品,接着对比听听AI生成的赋格。

在赋格中,通常有一个主题(subject),随后会有其他声部对其进行回应(answer)。通过这种方式,以及一些变化技巧,构建出整个作品。赋格的写作有很多系统性的规则,这些严格的规则最终限制了它的进一步发展。音乐家们觉得需要打破这些框架,探索更多创新的可能性,这也是为什么赋格并没有从文艺复兴时期一直延续到20世纪。

叨叨冯:好的,这个提示词描述的是一个d小调的托卡塔与赋格,需要有阴暗和戏剧性的效果,有管风琴独奏,整体给人一种严肃而有力的感觉。这个提示词描述的是巴赫非常著名的曲子,可能是大家最熟悉的作品之一。

AI生成的结果已经出来了,配图是一个教堂,非常贴切。

叨叨冯:我觉得AI生成的音乐在感觉上很像原曲,但实际差距还是比较明显的。尤其是如果你听过巴赫的原曲,你会发现开头的部分非常震撼。这种震撼感是在教堂或广阔空间中听时最为强烈的。

《硅谷101》:我们来听一下原曲吧。

叨叨冯:我们只比较一下开头的部分。巴赫的曲子开头的震撼感,以及随后清晰的各个声部,是AI目前训练方式难以直接达到的。我最想强调的是,AI生成的曲子在给人的第一印象上与原曲有较大差别。巴赫的曲子在声部的处理上非常清晰,而AI生成的曲子在这方面则显得有些模糊。

在赋格音乐中,有两个声部互相呼应是非常明显的特征。首先是第一个声部提出一个主题,第二个声部对这个主题进行重复,形成一种对话的效果。在赋格写作中,同样的旋律会在不同的声部中重复并进行变奏,但即便在变奏过程中,听众仍然能够识别出它们源自同一主题。

然而,在刚才AI生成的音乐中,声部之间的这种呼应和主题的一致性并不明显,可以说是相当模糊。对我来说,AI生成的音乐听起来混杂不清,各个声部的声音黏在一起。虽然可以辨认出是管风琴的声音和两个声部的存在,但是它们缺乏清晰的主题性和严谨的逻辑性,这是AI目前尚未能够实现的部分。

《硅谷101》:赋格音乐的逻辑性非常严谨,这是否意味着它更适合AI生成?因为AI擅长处理逻辑和公式化的任务。Roger:AI音乐领域的研究确实已经进行了很多年,包括赋格音乐。巴赫的乐谱在网上很容易找到,AI可以利用这些逻辑性强的音乐数据进行建模。在符号层面,AI已经能够很好地模拟赋格音乐,包括主题和变奏。

但是,目前的端到端生成系统,比如Suno,并不是专门用于生成赋格音乐的。AI生成的效果取决于它的训练数据,如果AI只听过一首赋格曲目,它可能无法很好地学习。在AI音乐生成中,偏向于逻辑推理的AI系统在处理赋格音乐这类音乐时可能会表现得更好。04创作者的脑洞大开:在音乐里加入随机数机制

《硅谷101》:冯老师作为专业音乐人,您有没有关于用AI创作音乐的特别问题?

叨叨冯:我们通常认为伟大的作曲家是靠灵感创作,但我认为音乐可能更多地与认知科学有关。所有情绪和思维最终都可以归结为电信号或化学物质。

为什么某些音乐让人感觉欢乐,而另一些让人感觉悲伤?AI在音乐研究过程中与音乐学科有很多交叉,可以进行很多有趣的研究。

《硅谷101》:冯老师曾提到音乐最怕无聊,AI将来能否克服这个问题,创作出既符合逻辑又出人意料的音乐?

叨叨冯:AI能否无中生有,这是关键问题。AI在现有知识的基础上能做得很好,但音乐的发展需要创新,比如从爵士乐发展出摇滚乐。目前AI的工作原理还是基于统计学,它总结人类已有的音乐来生成新作品。艺术需要在人类知识范围之外有所突破,而AI目前还做不到这一点。

如果AI能超越现有模型,发展出真正的创新,那将是非常了不起的。虽然这样的发展还有很长的路要走,但如果AI能演算并发展出全新的音乐形式和风格,我会感到非常兴奋,即便这可能带来一些道德和伦理上的挑战。

《硅谷101》:从技术角度来看,Roger你认为AI是否能够克服生成音乐中的单调和无聊?

Roger:我认为在一定程度上是可能的。音乐就是有组织的声音,某些音乐流派实际上是对现有元素的重新排列组合。例如,不同的节奏模式可以让音乐听起来完全不同,尽管使用的乐器可能相似。这种重新排列组合的方式,包括现在很多流派,如嘻哈音乐的一些分支,都在节奏上进行创新。如果给AI足够的数据和计算能力,它理论上能够生成符合人类审美的、前所未有的音乐组合。但AI可能无法自动筛选出这些创新组合,这就需要人类的审美参与,进行选择和指导。长期来看,可能会有很多人尝试各种音乐融合,结合非洲、拉丁等民族元素与电子音乐等,创造出新奇的音乐流派。关键在于是否有人能够捕捉到这些创新,并在人类社会中推广它们。

随着人类创作出更多优秀的音乐作品,AI也将获得更高质量的训练数据,形成一种人类与AI共同发展的反馈循环。AI将推动人类音乐家创作出更优秀的作品,而AI自身也将在吸收了这些优秀作品后不断进步。我认为,20年后,无论是人类音乐还是AI音乐,都将达到更高的水平,实现共存和共同进步。

《硅谷101》:这种AI音乐创作的过程,听起来有点像是朝着通用人工智能(AGI)的方向发展。

叨叨冯:我想补充一个可能听起来很无知的建议。目前的AI在一定程度上遵循我们给它设定的标签和逻辑,是否可以在AI中引入一个随机数机制,让AI生成一些真正的随机性,比如新的音色或节奏型。这样可能会产生更新颖、更有趣的结果,而不仅仅是现有元素的重新组合。

这有点像是“上帝掷骰子”的概念。虽然人类作曲家一直在尝试不同的音乐组合,但加入随机性可能会带来真正的创新。我不知道AI是否能够实现这一点。Roger:实际AI中已经存在一定程度的随机性。比如,即使输入相同的prompt,AI也能输出两首不同的歌曲。这种随机性是在生成过程的每一步中引入的,AI在生成每一小段音频时都会有一定的随机选择。

此外,AI模型中有一个叫做“温度”的参数,可以调整随机性的程度。如果设置得较低,AI会严格按照最大概率选择下一步;如果设置得较高,AI会更愿意探索不那么大概率的选项,从而可能产生一些惊喜。

目前的随机性主要是在生成过程中引入的,但未来我们可能会尝试更多样的随机性,比如在人类能理解的语义层面上进行控制。这样的随机性可能会带来更丰富、更有趣的音乐创作结果。

掩蔽效应:是指由于出现多个同一类别(如声音、图像等)的刺激,导致被试不能完整接受全部刺激的信息。具体分为视觉掩蔽效应和听觉掩蔽效应。其中,听觉掩蔽效应是指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较为不敏感。例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。

THE END
1.大数据AI竞彩分析:连续2天全红,6.28赛事初盘基本面情报数据赛事数据和分析发布太早,晚些时候可能会存在变化,晚上复盘。 关注我,不迷路! 如有不同观点可以在评论区留言,感谢支持! 免责声明* 以上内容属于赛事基本情况,由AI生成,人为审核,难免会有纰漏。 此外,以上内容纯属娱乐,理性观球。 本文观点纯属兴趣分享,不构成任何建议和意见! https://game.sohu.com/a/692212388_121721393
2.在短视频下留言“能预测彩票中奖号码”行骗,绍兴一男子获刑据介绍,去年8月起,王某注册多个微信号及微信公众号,在某平台短视频下留言,称能够预测彩票中奖号码,并留下联系方式,诱骗彩民添加自己微信。同时,他在微信朋友圈发布大量“彩票中奖”的虚假信息,称这些中奖号码由专业分析团队提供,可保证每月六期至十几期的福彩中奖概率。据交代,这些中奖号码是他随便编造的,“专业团队http://finance.sina.com.cn/jjxw/2023-11-10/doc-imzuciiq3488009.shtml
3.盘中宝AI+彩票,这家公司产品正式上线,后续将引入多项人工智能懂题材却没有一手资讯?有资金却找不准题材风口?追热点总割肉出局,玩潜伏全被深度套牢?盘中宝帮你一网打尽!依托财联社强大的资讯系统,帮助投资者提前梳理、实时追踪、反复回顾有价值的投资资讯。https://www.cls.cn/detail/1307638
4.深度解读三款安卓机皇的五项AI必杀技唤醒后,你可以向小E发出查看微博、查询彩票开奖结果、给狗屎(我的一位通讯录好友)发短信、购买从北京到广州(我经常会购买从北京出发的票)的火车票。也就是说,小E可以通过不断学习用户习惯和场景分析,为用户提供定制个性化服务并在手机的负一屏显示。 小米8透明探索版中的语音助手是小米的小爱同学,小爱同学原本是去年https://tech.ifeng.com/a/20180702/45046787_0.shtml