基于VGGish网络对音乐情感的分析 在移动互联网的发展下催生了一批又一批以短视频为主要业务的互联网产品,如何做到产品的精准营销,针对不同的客户推荐合适视频,构建完整的用户画像已经成为时下比较热门的研究课题。现有的短视频推荐都是基于视频内容本身,很少与背景音乐情感特征标签相结合,本文从短视频背景音乐的情感标签出发,来探讨怎样做好精准推荐。人类的感情丰富,创作的音乐也是一种情感的表现方面,如何给音乐情感做好分类就是本文研究的核心。识别音乐情感的首要基础是语音识别,在这一领域已经有很多学者展开了研究,较多是对声音类别的判断,在音乐方面的识别主要是对音乐类型的识别,而在近几年对情感的识别也是行业研究的重点。本文选取了网易云音乐的1068首音频,每类按照7:2:1分为训练集、测试集和验证集。首先将歌曲分段,每30s为一段,将格式为wav的音频转换为梅尔频率倒谱频率即MFCC,将每段音频进行每0.96s为一帧,最后一帧的格式为96*64,其次将这样格式的一帧输入VGGish网络提取为128维的特征数组,所以每一个30秒的片段提取的特征embedding为30*128。由此实现了将非格式化的音频数据向格式化数据的转换,以便做后续研究。为了验证初始标签的准确性,即是否保证了同个标签下的数据具有相同的特征,而组间差异明显。本文选取可视化的方法来界定初始标签的准确性,但是提取的特征矩阵有128维,需要先进行降维才能实现可视化。在可视化的方法选择上,本文将传统的降维方法PCA和现在流行的t-sne降维方法进行比较,发现t-sne表现更好。通过最终可视化结果调整数据集结构,经过几次数据集的调整,降维可视化的数据每类的界限明显,重合部分甚少,即数据是可分的,这表明VGGish提取的音频信息全面,包含了音频的大部分特征。最后将音频数据特征embedding构建普通机器学习分类器svm,因为从可视化结果发现数据是线性不可分的,所以选择了高斯核,加大了惩罚系数C,但是svm的适用维度是20维左右,现在的特征embedding有128维超出了svm的最佳使用范围。介于svm的局限性,本文再建立了深度学习模型lstm来进行比较,确定最终的分类器选择,svm的准确率为85.2%,lstm的准确率为89.7%。本文通过VGGish网络提取音频数据特征,再通过降维可视化查看数据集分布保证样本的可分性和数据均衡性,再通过建立机器学习模型和深度学习模型来实现最终的特征分类,在测试集的表现上深度学习模型还是占有优势,克服了维度局限,保留更多的原始数据特征,在后续应用上选择深度学习模型。 本文来源:https://www.wddqw.com/doc/9441f2d7ba68a98271fe910ef12d2af90342a8ca.html