人工神经网络书籍推荐（用神经网络识别歌曲流派）

陳雪瓦特 2023-08-27 06:13:49

收藏赞

人工神经网络书籍推荐（用神经网络识别歌曲流派）(1)

新智元报道

DataSet: 本文使用GTZAN Genre Collection音乐数据集，地址:[1]

这个数据集包含1000首不同的歌曲，分布在10种不同流派，每个流派100首，每首歌曲大约30秒。

使用的库：Python库librosa，用于从歌曲中提取特征，并使用梅尔频率倒谱系数（ Mel-frequency cepstral coefficients ，MFCC）。

MFCC数值模仿人类的听觉，在语音识别和音乐类型检测中有广泛的应用。MFCC值将被直接输入神经网络。

了解MFCC

让我们用两个例子来说明MFCC。请通过Stereo Surgeon下载Kick Loop 5[2]和Whistling[3]。其中一个是低音鼓声，另一个是高音口哨声。它们明显不同，你可以看到它们的MFCC数值是不同的。

让我们转到代码（本文的所有代码文件都可以在Github链接中找到）。

以下是你需要导入的内容列表：

librosalibrary

glob，你需要列出不同类型目录中的文件

numpy

matplotlib，绘制MFCC graphs

Keras的序列模型，一种典型的前馈神经网络

密集的神经网络层，即有很多神经元的层。

例如，与卷积不同的是，它具有2D表示。你必须使用import activation，它允许你为每个神经元层提供一个激活函数，以及to_categorical，它允许你把类的名称转换成诸如摇滚（rock），迪斯科（disco）等等，称为one-hot 编码，如下所示：

这样，你已经正式开发了一个辅助函数来显示MFCC的值

首先，加载歌曲，然后从中提取MFCC值。然后，使用specshow，这是librosa库里的频谱图。

这是踏板鼓：

Low frequency: Kick loop 5

可以看到，在低频率下，低音是非常明显的。没有多少其他频率被表示。但是，口哨声的频谱图明显有更高的频率表示：

High frequency: Whistling

颜色越深或越接近红色，在那个频率范围内的能量越大。

限定歌曲流派

你甚至可以看到口哨声的频率的变化。下面是是disco曲的频率：

Song type/genre: Disco

下面是频率输出：

Disco Songs

你可以在前面的输出中看到节拍，但由于它们只有30秒长，因此很难看到单个的节拍。将它与古典乐相比较，会发现古典音乐没有那么多的节拍，而是有连续的低音线，比如下面是来自大提琴的低音线：

Song genre: Classical

下面是嘻哈音乐（hip-hop）的频率：

Song genre: HipHop

HipHop songs

它看起来有点像disco，分辨它们之间的细微区别是神经网络的问题。

这里还有另一个辅助函数，它只加载MFCC值，但这次你是正在为神经网络做准备：

同时加载的是歌曲的MFCC值，但由于这些值可能在-250到 150之间，它们对神经网络没有什么好处。你需要输入接近-1到 1或0到1的值。

因此，需要计算出每首歌曲的最大值和绝对值。然后将所有值除以最大值。此外，歌曲的长度略有不同，因此只需要选择25000个MFCC值。你必须非常确定你输入神经网络的东西的大小总是相同，因为只有那么多的输入神经元，一旦搭建好网络就无法改变了。

限定歌曲以获得MFCC值和流派名称

接下来，有一个名为generate _features_and_labels的函数，它将遍历所有不同的流派，并遍历数据集中的所有歌曲，然后生成MFCC值和流派名：

如上面的截图所示，准备一个所有特征和标签的列表。遍历全部10种流派。对于每种流派，请查看该文件夹中的文件。generes / genre / *。au文件夹显示数据集的组织方式。

处理这个文件夹时，每个文件会有100首歌曲; 你可以提取特征并将这些特征放在all_features.append(features)列表中。那首歌曲的流派名称也需要列在一个列表中。因此，最终，所有features将包含1000个条目，所有标签也将包含1000个条目。在所有feature的情况下，这1000个条目中的每一个都将有25000个条目。这是一个1000 x 25000矩阵。

对于目前的所有标签，有一个1000 entry的列表，里面是蓝调、古典、乡村、迪斯科、嘻哈、爵士、金属、流行、雷鬼和摇滚等等词汇。这就成问题了，因为神经网络不会预测单词或预测字母。你需要给它一个one-hot编码，这意味着这里的每个单词都将被表示为十个二进制数。

蓝调（blues）的情况下，它是1后面跟着9个0。

古典（classical）的情况是，是0后面跟着1，再跟着9个0。以此类推。首先，通过np.unique(all_labels, return_inverse=True) 命令将它们作为整数返回来计算所有唯一的名称。然后，使用to_categorical，将这些整数转换为one-hot编码。

那么，返回的是1000x10维。因为有1000首歌曲，每个歌曲都有10个二进制数字来表示单热编码。然后，通过命令return np.stack(all_features)返回堆叠在一起的所有特征，onehot_labels到单个矩阵，以及one-hot矩阵。因此，调用上层函数并保存特征和标签：

为了确保正确，请打印如下面的截图所示的特性和标签的形状。特性是1000×25000，标签是1000×10。现在，将数据集拆分为一个列并测试拆分。将80%的标记定义为training_split= 0.8，以执行拆分:

接下来，构建神经网络：

你会得到一个序列神经网络。第一层是100个神经元的dense layer。在第一层，你需要给出输入尺寸或输入形状，在这个例子里，就是25000。

这表示每个示例有多少输入值。25000将连接到第一层中的100。

第一层将对其输入，权重和偏差项进行加权求和，然后运行relu激活函数。relu表示任何小于0的都会变成0，任何高于0的都是值本身。

然后，这100个将连接到另外10个，就是输出层。之所以是10，是因为你已经完成了one-hot编码并且在编码中有10个二进制数。

代码中使用的激活softmax告诉你取10的输出并对它们进行规范化，使它们加起来为1。这样，它们最终成为了概率。现在考虑10个中的得分最高或概率最高的作为预测。这将直接对应于最高数字位置。例如，如果它在位置4，那么它就是disco。

接下来，编译模型，选择Adam等优化器，并定义损失函数。由于你有多个输出，你可能希望进行分类交叉熵和度量准确性，以便除了始终显示的损失之外，还可以在评估期间看到准确度。但是，准确度更有意义。接下来，打印model.summary，它会告诉你有关层的详细信息。它看起来是这样的：

第一个100神经元的层的输出形状肯定是100个值，因为有100个神经元，而密集的第二层的输出是10，因为有10个神经元。那么，为什么第一层有250万个参数或权重？这是因为你有25000个输入。

你有25000个输入，每个输入都会进入100个密集神经元中的一个。因此，也就是250万个，然后加上100，因为100个个神经元中每个都有自己的bias term，它自身的偏差权重也需要学习。

你有大约250万个参数或权重。接下来，运行拟合。这需要训练输入和训练标签，并获取你想要的epochs数量。你想要10，所以在经过训练的输入上重复10次。它需要一个batch size来告诉你这个数字，在这种情况下，歌曲在更新权重之前要遍历；并且validation_split是0.2，表示要接受20％的训练输入，将其拆分出来，实际上并没有对其进行训练，并用它来评估每个epoch之后它的表现如何。实际上从来没有训练验证拆分，但验证拆分可让你随时查看进度。

最后，因为你提前将训练和测试分开了，所以对测试、测试数据进行评估，并打印出测试数据的损失和准确度。以下是训练结果：

它边运行边打印，并始终打印损失和准确性。这是在训练集本身，而不是验证集上，所以这应该非常接近1.0。你可能不希望它接近1.0，因为这可能代表过拟合，但是如果你让它持续足够长时间，通常会在训练集上达到1.0的精度，因为它会记住训练集。

你真正关心的是验证的准确度，这就需要使用测试集。测试集是以前从未见过的数据，至少不是用于训练的数据。最终的准确性取决于你提前分离的测试数据。现在你的准确度大约为53％。这看起来比较低，但要知道有10种不同的流派。随机猜测的准确率是10％，所以这比随机猜测要好很多。

[1]marsyasweb.appspot.com/download/data_sets/.GTZAN Genre Collection

[2]https://freesound.org/people/Stereo Surgeon/sounds/266093/

[3]https://freesound.org/people/grrlrighter/sounds/98195/

原文：

https://medium.com/@navdeepsingh_2336/identifying-the-genre-of-a-song-with-neural-networks-851db89c42f0

新智元AI WORLD 2018

世界人工智能峰会全程回顾

新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，邀请机器学习教父、CMU教授 Tom Mitchell，迈克思·泰格马克，周志华，陶大程，陈怡然等AI领袖一起关注机器智能与人类命运。

全程回顾新智元 AI World 2018 世界人工智能峰会盛况：

爱奇艺

上午：https://www.iqiyi.com/v_19rr54cusk.html

下午：https://www.iqiyi.com/v_19rr54hels.html

新浪：http://video.sina.com.cn/l/p/1724373.html

,

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。

猜您喜欢

好点的文字转语音软件（找了十几款文字转语音软件）

现在不论是找软件还是找其它的东西，都会在网上找测评。不为其它，主要就是被坑的次数多了，不想被坑就必须要对比，做功课。不说...

场白日梦 2023-08-27 05:31:45
电视为什么不带底座壁挂架（说一说电视机壁挂架的好处及安装注意事项）

说一说电视壁挂架的好处，还有安装注意事项。电视壁挂架是我们常用的一种电视周边设备，也是现在最主流的电视安装方式之一，...

偏执脱俗 2023-08-27 05:07:53
一个人怎么安装电视支架（如何低成本高效率的自己安装电视支架）

　　在我们使用液晶电视的时候都是习惯把液晶电视挂在电视墙上使用的，因此我们就必须要使用到液晶电视挂架，液晶电视挂架是专为...

闭幕式记忆 2023-08-27 05:57:22
电视支架怎么安装（如何自己安装电视支架）

　　电视买回家，安装就成了消费者们首要解决的问题，是摆在电视柜上还是挂在墙上让人犹豫。随着平板电视的普及，电视的安装方式...

此间妖娆 2023-08-27 05:44:47
联想um10c有什么功能（下一手机直播新网红）

前言随着时代的变迁，伴着新兴职业网络直播与网红的兴起，一大波的时尚人群投入了这一行业，唱歌好的和玩游戏好的还有喜欢吐...

畏心伤肋 2023-08-27 05:17:49
电视上哪个软件能听音乐（客厅听音乐必备）

智能电视随着时代的进步在我们的生活逐步普及开来，对于软件的追求要求也就自然提高。对于喜欢听音乐的人来说，音乐能够带给他们...

若影若痕 2023-08-27 05:07:11
明日方舟干员技能图标解读（明日方舟干员测评）

碧蓝航线主流运用的五星干员相信不少都略知一二，其中真理作为比较偏冷门的辅助型干员，虽然形象优秀，但似乎还有不少玩家不太清...

再睡会嘛 2023-08-27 05:13:31