音频几个主要底层特征与听众及评价的关系 摘 要:在快速发展的数字市场里,音乐产业正在进行着从实体到数字,音乐在数字市场所占的比例也在逐年增加,其所带来的经济收益也越来越可观。本文主要以音乐视频(Music Video,MV)为研究对象,概述音频几个主要底层特征与听众评价的关系。 关键词:音频;底层特征;听众评价 1 频谱特征与听众情绪及评价的关系 频谱特征对于音频而言是一个很重要的底层特征。它是通过对音频信号进行短时傅里叶变换而得到的谱特征,是音频信号最基本的底层特征。 Krishna Kishore 和Krishna Satish 在其文章中选取SAVEE数据库中的数据,使用基于倒谱参数的子带(Subband based Cepstral Parameter)和MFCC两种算法识别愤怒、沮丧、害怕、快乐、中性、悲伤六种情感,其最高准确率达到79%。Bhaykar等人在其文章中研究了在演讲人固定、不固定以及多种语言交叉的三种情况下进行情感识别,进一步验证了梅尔频率倒谱系数的有效性。研究中选用了IITKGP-SESC和IITKGP-SEHSC两个语音数据库,并使用高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)作为分类模型进行情感分类,文中共涉及了七种情感,分别为愤怒、厭恶、恐惧、快乐、中立、讽刺和惊喜。研究结果表明基于GMM模型使用MFCC特征识别7种情感的正确率为47.14%,而基于HMM模型的正确率为40.55%。频谱重心也是一个重要的频谱特征。Antonio Rodà对古老的音乐唱片进行了研究,使用4种不同尺寸的唱针重新刻录这些唱片,并选取了年龄在21到26岁间的24个志愿者欣赏重新刻录的唱片,通过志愿者的评价,利用频谱重心和声音的明亮度等音频特征进行了定量的感知测验分析,以检验唱片重新刻录的质量。实验结果表明,不同的唱针类型对刻录唱片的质量有一定的影响。频谱通量作为最基本的音频特征,也有许多研究中使用这个特征。如Wang Xing等人在其研究中利用音乐情感和音乐结构构建音乐数据库,研究中提取的特征有频谱特征、声音明亮度、梅尔频率倒谱系数、频谱重心、节奏等音频特征,利用这些音频底层特征构建了情感回归因子,实验结果证明音频底层特征可以建立比较好的情感回归因子。综上所述,音频的频谱特征影响着听众情绪,从而影响着其对该音乐的评价的好坏。 2 节奏特征与听众情绪及评价的关系 节奏是音乐中不可缺少的一部分,节奏特征对于音乐的分析也是必不可少的底层特征。常用的节奏特征有节拍,节奏和脉动清晰度。不同的音乐表达着不同的情绪。Aathreya等人在其研究中基于Thayer情感模型,选取了快乐、旺盛、精力充沛、疯狂、悲伤、忧郁、冷静、知足8种情绪,提取了节拍、节奏、音高、过零率等音频底层特征,根据音乐所表达的不同的情绪对歌曲进行分类,分类效率最高达到94.44%。Katsunori Arakawa等人在其文章中研究了听众的喜好与音乐特征间的关系。其选用的音频特征就是节奏特征。研究结果表明听众喜欢的音乐往往集中在某些音乐特征轴上,此外,这些特征轴随着听众与艺术家的不同而改变。节奏特征还用来对音乐情绪分类。Emiru Tsunoo等人提出了一种从音乐中提取出节奏和低音线特征的单元模式,将这一单元模式与统计特征提取相结合来对情绪进行分类。实验结果表明自动地计算这一单元模式信息可以有效地用来对音乐情绪分类。脉动清晰度决定了节奏的周期性强度及音乐信号的脉动强度,其传递着如何使听众可以轻易的感知音乐底层的脉动的信息。Santosh Chapaneri等人提取音乐的力度特征、节奏特征、音色特征、谱特征,其中节奏特征中就选用了脉动清晰度特征,利用CFS选出重要的特征后对500首歌曲进行流派分类,这500首歌曲共有5个流派,分别为电子、爵士、流行、嘻哈、摇滚,最高的分类准确率达到了82%。 3 音色特征与听众情绪及评价的关系 音色特征同样也是重要的音频底层特征。声音的明亮度影响着听众的情绪。明亮的音色再加上响亮的声音会让人产生活力,动荡,冲突和豪迈的情绪;同样的音色若是加上轻柔的声音则会诗人产生敏感的、热情的、悲悯的情绪。低沉的音色搭配轻柔的音乐更能激发听众的共鸣感。在不考虑节奏的饱和度的情况下,音色可以刺激听众的能量水平。此外,音频信号的过零率(zero crossing rate,ZCR)在上文所提到的语音情感识别的研究中也是一个常用的底层特征,愤怒的情感相比于愉快的情感具有较高的震动均值。 4 音高特征与听众情绪及评价的关系 除上述几种特征外,音高特征(pitch)也是人们常用来进行音频情感识别的特征。Wu liang提出一个新方法用于语音情感识别,该方法是基于多类分类器,使用声学的韵律信息和语义标签对中性、愉快、愤怒和悲伤四种情绪进行识别。文中用于情绪识别的音频特征中有音调、梅尔频率倒谱系数、强度等,其采用元决策树(Meta Decision Tree,MDT)将高斯混合模型、支持向量机和多层神经网络三种分类器进行融合来提高识别的准确率。研究结果表明使用MDT可以使识别的准确了达到80%,单独使用LS其平均准确率为80.92%,若将AP和LS结合使用则准确率可以达到83.55%,要高于单独使用AP或LS进行识别。Shashidhar等人也采用音高和vowel onset points进行愤怒、害怕、高兴、中性以及悲伤5种情感进行识别,以高斯混合模型作为分类器,对数据库IITKGP-SESC和Emo-DB进行对比,对两个数据库的情感识别的准确率分别为92%和89%。 鉴于上述分析,可假设音乐视频的频谱特征、节奏特征、音色特征和音高特征对听众的情感状态有影响,但是应该考虑哪些具体的特征呢?通过阅读大量阅读参考文献,选取频谱通量、频谱质心、梅尔频率倒谱系数、音符密度、节奏、脉动清晰度、声音明亮度、过零率、音调9个音频底层特征。 参考文献: [1]孙科.中国民族音乐特征提取与分类技术的研究[D].上海:东华大学,2011. [2]孙鹏玉.波形音乐文件特征提取方法的研究[D].大连:辽宁大学,2013. 项目:吉林农业科技学院青年基金项目:吉农院合字[2018]第3013号 本文来源:https://www.wddqw.com/doc/5c1265e7c7da50e2524de518964bcf84b8d52d6c.html