深入揭发:Facebook人工智能音乐模型MusicGen是如何通过参考旋律生成音乐的?

2023年6月13日,Meta(前身为Facebook)发布了生成音乐模型MusicGen,在音乐和人工智能社区引起了轰动。

虽然在测试中MusicGen并没有严格遵循文本提示的要求,并且创作的音乐与要求的略有不同,但生成的作品仍然准确地反映了所要求的音乐流派。更重要的是,每首作品都展示了自己对主旋律的不同诠释。虽然结果并不完美,但是该模型的功能令人印象深刻。自发布以来,MusicGen一直是HuggingFace上最受欢迎的模型之一。

几乎当前所有的音频式音乐生成模型在训练过程中都遵循相同的逻辑,依靠一个附有相应文本描述的大型音乐数据库。该模型学习文本和声音之间的关系,并从中得到将给定的文本提示转换为音乐片段的能力。在训练过程中,模型通过将其生成的内容与数据集的真实音乐曲目进行比较来优化迭代,这使得深度学习模型能够识别其当前生成音乐的优劣并不断提升。

这种方法的局限在于一旦模型针对文本到音乐生成这样的特定任务进行训练,它就只能执行该任务。虽然可以试图让MusicGen执行如音乐续写这样未经过明确训练的任务,但不能每个请求都能完成。MusicGen不能轻易地把一条旋律变为不同的流派。这就像将土豆扔进烤面包机并期待炸薯条出来一样。为了实现各种需求,我们必须训练一个单独的模型来实现此功能。

让MusicGen能够根据文本提示生成旋律变奏存在一些挑战。主要障碍之一是识别歌曲的“旋律”并以计算机接受的方式表示。这个问题会在之后深入探讨。目前,为了理解新的训练过程,我们先假设对“旋律”的概念达成共识。在这种情况下,调整后的训练方法可以概述如下:

对于数据库中的每个曲目,第一步是提取其旋律。随后向模型输入曲目的文本描述及其相应的旋律,促使模型重新创建原始曲目。这种方法与最初模型的训练目标不同。MusicLM一类的模型唯一的任务是根据文本重新创建音频。

为了理解这样的训练方式,让我们想想人工智能模型在这个训练过程中学到了什么。本质上,模型学习的是如何根据文本描述将旋律变成一首完整的音乐。这意味着训练结束后,我们可以为模型提供旋律,并要求它以任何流派、情绪或乐器创作一首音乐。对于模型来说,这与它在训练过程中已成功完成无数次的“半盲”生成任务相同。了解MusicGen旋律条件限制音频音乐生成技术后,我们仍然需要应对精确定义“旋律”的挑战。

事实上,除非所有乐器同度演奏,否则没有客观的方法来确定和提取复调音乐作品的“旋律”。虽然通常会有一种突出的乐器,例如主唱、吉他或小提琴,但这并不一定意味着其他乐器不是“旋律”的一部分。以皇后乐队的《波西米亚狂想曲》为例,当你想到这首歌时,你可能首先想起弗雷迪·摩克瑞的主唱旋律。然而,前奏中的钢琴、中间部分的合唱组以及“Soyouthinkyoucanrockme[...]”之前的电吉他也可以算作旋律之一。

两个色谱图都准确地描绘了主要旋律音符,而去除了鼓和贝斯的版本提供了更清晰的可视化效果。Meta的研究也揭示了相同的观察结果,这促使他们利用音源分离工具(DEMUCS)从曲目中删除任何干扰的节奏性元素。这个过程能提取到具有足够代表性的“旋律”,然后可以将其输入到模型中。

至此,我们现在可以将这些流程连接起来,以了解请求MusicGen执行旋律条件限制生成时的底层步骤。以下是工作步骤的图示:

虽然MusicGen在旋律限制方面做出了有希望的进展,但是该技术仍在开发完善当中。即使移除了鼓和贝斯,色谱图也无法完美地呈现曲目的旋律。其中一个限制是色谱图将所有音符分为12个西方音级,这意味着得到的是两个音级之间的绝对变化,但并没有获取旋律向上或向下的方向。

举例来说,从C4移动到G4(纯五度)之间的旋律音程与从C4移动到G3(纯四度)之间的旋律音程有很大不同。然而在色谱图中,两个音程看起来是相同的。八度跳跃时问题会变得更严重,因为色谱图会表明旋律保持在同一音符上。想象一下色谱图如何将席琳·迪翁在“MyHeartWillGoOn”中“Where-everyouare”这句中的八度音阶跳跃识别为不变的音高。这样的错误看看下面A-ha的“TakeonMe”中合唱的色谱图即可。

另一个挑战是色谱图的固有误差。色谱图在捕捉某些歌曲的旋律方面表现良好,但在其他歌曲中却完全不行。这种误差是系统性的而不是随机的。与旋律复杂分布在多种乐器上并具有较大音程跳跃的歌曲相比,主旋律明确、音程跳跃少、齐奏为主的歌曲可以通过色谱更好地表示。

此外,生成式人工智能模型本身的局限性也值得注意。输出音频质量表现出与真正音乐的明显差异,并且在六秒钟内的生成内容中保持风格一致仍然有难度。此外,MusicGen未能忠实地实现文本提示中的更复杂的描述。旋律条件限制生成需要进一步的技术进步,以达到不仅可以用于娱乐和灵感寻找,还可以直接生成达到最终令人满意的水平。

关于模型本身的质量问题,几个提升方向包括扩大模型规模、增加训练数据、针对特定任务开发更有效的算法等可以增强音频质量和文本的理解能力。2023年1月MusicLM的发布类似于“GPT-2时刻”。我们开始见证这些模型的潜力,但各个方面仍需要重大改进。如果这个类比成立,类似于GPT-3的音乐生成模型发布将比我们预期的更早。

人工智能音乐生成对我们社会的影响仍然存在争议。然而,旋律条件限制音乐生成这项技术的实际应用增强了专业和有抱负的创作者的工作方向。它提供的探索路径可以为社会增加价值。我们期待在不久的将来见证这一领域的不断进步。

THE END
1.『主歌副歌』英文怎麼說?不再搞混歌曲相關英文!歌曲要素 一首歌,光有架構不夠,還要有詞曲等歌曲要素: lyric 歌詞 She lost the singing contest because she forgot the lyrics to her song.(她輸掉了歌唱比賽,因為她忘詞了。) melody 旋律、曲調 一首歌的旋律由節奏(rhythm)跟音調(pitch)構成。 https://www.hopenglish.com/hope-tips-talking-about-music
2.十大旋律好听的歌曲旋律好听的歌曲总会得到更多人的喜欢,不知道大家收藏了哪些旋律好听的歌曲呢?下面小编给大家推荐十首旋律好听的歌曲的相关内容,希望大家喜欢! 十大旋律好听的小提琴协奏曲 1、贝多芬《D大调小提琴协奏曲》,该曲作于1806年,是贝多芬唯一的小提琴协奏曲作品,自古以来被誉为“小提琴协奏曲之王”。当年贝多芬作曲时,正值http://www.jiaoyubaba.com/jiaoan/38629.html
3.圣诞歌曲有哪些流行的经典圣诞节旋律都在这里了难怪我们在歌词中找不到半点耶稣基督的影子。歌中唱道:“雪橇奔驰在雪地上,我们欢笑一路上,铃声儿响彻四方,我们情绪高涨,笑得多开心,雪橇之歌今夜唱。叮叮当,叮叮当,铃儿响叮当……”明快的旋律、欢乐的场景、动人的童声合唱,使这首歌成为150年来最重要的圣诞节保留曲目,也是世界知名度最高的歌曲。https://m.18183.com/wp/qt/3767562.html
4.加厚主旋律的方法有哪些?加厚主旋律使其更加丰满的方法有在主旋律音下面加厚主旋律的方法有哪些?加厚主旋律使其更加丰满的方法有在主旋律音下面加一个音使其变成双音,也可以在主旋律音下面加两个音使其变成( ):和弦加厚主旋律使其更加丰满的音程主要是加协和音程,如纯四、五度与大小( )和( ):三度和六度请尝试独立通过加厚主旋律使其更加丰满的方法给奥德维作曲的歌曲《送别》(学堂http://www.ppkao.com/wangke/daan/dbef176bbf73403a9e5711c08cf9bd8e
5.音乐的旋律(精选10篇)如在引导学生欣赏《游击队之歌》时, 首先感受到这首歌的旋律是简洁生动, 欢快而又紧张, 富于变化, 既有战斗性, 又有号召性。在教学中要激发学生的战斗激情, 并体现出在艰苦生活中的坚强毅力, 以及追求胜利的希望和要努力付出的青春, 仍至宝贵的生命。学生由于音乐知识的限制, 一时比较难于理解这首歌曲的旋律https://www.360wenmi.com/f/fileznajrod1.html
6.结婚喜庆歌曲有哪些婚礼点歌最佳歌曲接亲网如果有人问你适合结婚使用的喜庆歌曲有哪些,你脑海中想到的第一手歌曲是哪一首呢?不知道有多少人想小编意义,会想到《咱们结婚吧》?这首歌曲旋律欢快,节奏感强,而且非常流行,很适合年轻人。但是除了这一首歌曲之外,其实也有很多歌曲也是非常喜庆的,非常适合结婚现场使用的。如果你最近还在筹备婚礼,可别忘了婚礼歌曲https://www.jieqinwang.com/baike/72149.html
7.打出抖音的歌曲,抖音短视频计算器乐谱大全抖音短视频中有一些大神用计算器按出了热门歌曲的旋律,而且听起来还别有一番风味。今天小编为大家带来了抖音里比较热门的计算器乐谱,快来看看是怎么按出来的吧! 抖音计算机乐谱有哪些? 1、体面 89+89+8×××+98 8678 6++ +765 8678×÷××+8 9+6 ++++98+ 89+89+ 8×××+98 8678 5++9+×8https://blog.csdn.net/weixin_34357697/article/details/118179629
8.有关音乐旋律的句子(精选190句)5. 清风吹歌入空去,歌曲自绕行云飞。 6. 当他们来到山的边缘时,水哗哗地流着;晨跑,鸟鸣;炎热的夏天,蝉鸣声此起彼伏;在音乐厅里,钢琴的声音深沉而优雅,我总觉得大自然的声音很特别,令人陶醉。 7. 泰戈尔说过一句话:“不要试图填满生命的空白,因为音乐就在那空白的深处。”音乐,是一种充满神秘色彩的旋律,http://www.wdjuzi.com/jingdianmingyan/rjo8ArdV.html