一种基于音乐与或图的多模态输入乐谱生成方法和装置与流程

专利查询2025-05-05 36

本发明涉及音频数据处理，尤其涉及一种基于音乐与或图的多模态输入乐谱生成方法、装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质和计算机程序产品。

背景技术：

1、近些年来，随着大型预训练模型的发展，音乐生成取得了显著进步。现行乐谱生成方法基本依赖深层神经网络与/或大模型，可以是卷积神经网络（convolutional neuralnetwork，简称为cnn），可以是transformer，将输入信息进行编码，形成高度抽象的特征，构成特征空间或隐空间；在此抽象编码的空间中，进行不同目标的特异化学习；进而再利用不同的结构，cnn或者transformer，以及不同样本的生成方式，如对抗生成、扩散模型等，进行新样本的采样。

2、对于形式化的音乐生成，普遍的做法是将音符等音乐元素进行分词处理，然后送入多基于 transformer 的深度网络或大模型中进行学习，以实现音乐生成的目的。然而，这种方法存在弊端。首先，将音乐分词送入网络会使音乐丧失结构信息。音乐是一种具有丰富结构的艺术形式，包括旋律、节奏、和声等多个方面。分词处理可能会破坏这些结构之间的关联性，导致生成的音乐缺乏连贯性和整体性。其次，网络的海量参数需要海量分词化音乐数据作为依托。收集和整理大量高质量的音乐数据是一项艰巨的任务，而且数据的质量和多样性也会影响生成音乐的质量。此外，大量的数据需求也增加了计算资源和存储成本。再者，这种方法只能够对生成音乐进行整体控制，缺少对细节的把控。在音乐创作中，细节往往决定了音乐的质量和表现力。缺乏对细节的控制使得生成的音乐可能在音色、节奏变化、情感表达等方面不尽如人意。

3、综上所述，基于现行通行方法所生成的音乐往往存在诸多问题，不能满足人们对高质量音乐的需求。因此，需要一种新的乐谱生成方法来克服这些弊端，提高音乐生成的质量和可控性。

技术实现思路

1、有鉴于此，本公开要解决的技术问题在于提供一种基于音乐与或图的多模态输入乐谱生成方法、装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质和计算机程序产品，以解决现有技术中音乐生成的质量较低、可控性较差的问题。

2、根据本公开的一方面，提供了一种乐谱生成方法，所述方法包括：

3、选择音乐数据的节点信息；其中，所述节点信息至少包括：乐段、乐句、小节、音符；多个音符构成一个小节节点，多个小节构成一个乐句节点，多个乐句构成一个乐段节点；

4、获取与所述节点信息对应的音乐属性特征；其中，所述音乐属性特征包括至少包括：旋律、伴奏、和声、节奏；

5、基于所述节点信息和与所述节点信息匹配的所述音乐属性特征生成目标音乐。

6、可选地，选择音乐数据的节点信息之前，所述方法还包括：

7、获取与或图；其中，所述与或图包括多个与节点、多个或节点和多个边；所述与节点表示音乐中的必要元素，所述或节点表示音乐中的可选元素，所述边表示音乐元素之间的关系；

8、通过所述与或图对所述音乐数据进行表示，将音乐数据从空间上分为所述音乐属性特征，同时从时间上分为所述节点信息。

9、可选地，获取与所述节点信息对应的音乐属性特征包括：

10、采集输入信号；所述输入信号反应所述音乐属性特征；

11、分析所述输入信号得到所述音乐属性特征。

12、可选地，所述输入信号包括绘图信息，分析所述输入信号得到所述音乐属性特征包括：

13、对所述绘图信息进行数学建模得到雷达图；

14、计算所述雷达图中曲线的各点的曲率变化率；和/或，计算所述雷达图中曲线的一阶导数的变化率；

15、根据所述曲率变化率和/或所述曲线的一阶导数的变化率确定所述节点信息对应的音乐属性特征。

16、可选地，所述输入信号包括用户视觉信息，分析所述输入信号得到所述音乐属性特征包括：

17、采集包括用户手型信息的用户视觉信息；

18、通过深度神经网络从所述用户视觉信息中提取所述手型信息；其中，所述手型信息包括以下至少之一：手部整体区域信息、手部关节位置信息、手部的坐标信息；

19、根据所述手型信息得到所述节点信息对应的音乐属性特征。

20、可选地，所述输入信号包括用户的视觉信息，分析所述输入信号得到所述音乐属性特征包括：

21、采集包括用户人脸信息的用户视觉信息；

22、通过深度神经网络从所述用户视觉信息中提取所述用户人脸信息；

23、根据所述用户人脸信息得到所述节点信息对应的音乐属性特征。

24、根据本公开的另一方面，提供了一种乐谱生成装置，所述装置包括：

25、选择模块，用于选择音乐数据的节点信息；其中，所述节点信息至少包括：乐段、乐句、小节、音符；多个音符构成一个小节节点，多个小节构成一个乐句节点，多个乐句构成一个乐段节点；

26、第一获取模块，用于获取与所述节点信息对应的音乐属性特征；其中，所述音乐属性特征包括至少包括：旋律、伴奏、和声、节奏；

27、生成模块，用于基于所述节点信息和与所述节点信息匹配的所述音乐属性特征生成目标音乐。

28、可选地，所述装置还包括：

29、第二获取模块，用于获取与或图；其中，所述与或图包括多个与节点、多个或节点和多个边；所述与节点表示音乐中的必要元素，所述或节点表示音乐中的可选元素，所述边表示音乐元素之间的关系；

30、表示模块，用于通过所述与或图对所述音乐数据进行表示，将音乐数据从空间上分为所述音乐属性特征，同时从时间上分为所述节点信息。

31、可选地，所述第一获取模块包括：

32、采集单元，用于采集输入信号；所述输入信号反应所述音乐属性特征；

33、分析单元，用于分析所述输入信号得到所述音乐属性特征。

34、根据本公开的另一方面，提供了一种电子设备，包括：

35、处理器；以及

36、存储程序的存储器，

37、其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述实施例中任一项所述的乐谱生成方法。

38、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据上述实施例中任一项所述的乐谱生成方法。

39、根据本公开的另一方面，提供了一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行上述实施例中任一项所述的乐谱生成方法。

40、本公开实施例中，选择音乐数据的节点信息，节点信息可以是乐段、乐句、小节或者音符，获取与节点信息对应的音乐属性特征，音乐属性特征可以是旋律、伴奏、和声或者节奏，基于节点信息和与节点信息匹配的音乐属性特征生成目标音乐，解决了现有技术中音乐生成的质量较低、可控性较差的问题，本公开实施例允许用户根据特定需求对音乐生成的过程进行精确控制，包括风格、情感、节奏和音色的选择，从而使得生成的音乐更加符合用户的期望，使得用户能获得符合个人品味和情感表达的音乐作品。

41、应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本发明所欲主张的范围。

技术特征：

1.一种基于音乐与或图的多模态输入乐谱生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的乐谱生成方法，其特征在于，选择音乐数据的节点信息之前，所述方法还包括：

3.根据权利要求2所述的乐谱生成方法，其特征在于，获取与所述节点信息对应的音乐属性特征包括：

4.根据权利要求3所述的乐谱生成方法，其特征在于，所述输入信号包括绘图信息，分析所述输入信号得到所述音乐属性特征包括：

5.根据权利要求3所述的乐谱生成方法，其特征在于，所述输入信号包括用户视觉信息，分析所述输入信号得到所述音乐属性特征包括：

6.根据权利要求3所述的乐谱生成方法，其特征在于，所述输入信号包括用户的视觉信息，分析所述输入信号得到所述音乐属性特征包括：

7.一种基于音乐与或图的多模态输入乐谱生成装置，其特征在于，所述装置包括：

8.根据权利要求7所述的乐谱生成装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的乐谱生成装置，其特征在于，所述第一获取模块包括：

10. 一种电子设备，包括：

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行权利要求1至6中任一项所述的方法。

技术总结
本公开提供了一种基于音乐与或图的多模态输入乐谱生成方法和装置，其中该方法包括，选择音乐数据的节点信息，节点信息可以是乐段、乐句、小节或者音符，获取与节点信息对应的音乐属性特征，音乐属性特征可以是旋律、伴奏、和声或者节奏，基于节点信息和与节点信息匹配的音乐属性特征生成目标音乐，解决了现有技术中音乐生成的质量较低、可控性较差的问题，本公开允许用户根据特定需求对音乐生成的过程进行精确控制，包括风格、情感、节奏和音色等的选择，从而使得生成的音乐更加符合用户的期望，使得用户能获得符合个人品味和情感表达的音乐作品。

技术研发人员：钱轶恺,赵两可,金鑫,许多,朱松纯
受保护的技术使用者：北京通用人工智能研究院
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-28241.html

专利

最新回复(0)