语音识别为文字Google微软科大讯飞的语音识别引擎对

时间：2022-04-22 09:55:20 阅读：最新文章文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

语音识别为文字：Google，微软，科大讯飞的语音识别引擎对比

学习路线：https://blog.csdn.net/qq_36330643/article/details/80077771

使用外部知识库——tf-idf，还可以加上词语出现的位置进行权重增幅。（推荐）不使用外部知识库——主要根据文本本身的特征去提取:比如在文本中反复出现且关键词附近出现关键词的概率非常大，因此就有了TextRank算法。（实现包括FudanNLP和SnowNLP)。类似于PageRank算法；ICTCLAS则是从另外一个思路出发，即一个词如果是关键词那么它反复出现并且左右出现不同的词语的概率非常高。即左右熵比较高。

关键词抽取也可以分为两种： 1.仅仅把词语抽取出来，实现较简单，比如：FundanNLP、jieba、BosonNLP、SnowNLP。 2.连词和短语一起抽取出来，这个还需要增加短语抽取这一步骤，实现如：ICTCLAS、ansj_seg等，可以把类似于“智能手机”、“全面深化改革”、“非公有制经济”这些短语抽取出来。（对于聚类或者分类来说，很明显短语比词语更有价值）

词性标注：(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。python jieba库在执行cut函数之后，完成了分词并进行了词性标注任务。

语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术，标注句子中某些短语为给定谓词的论元 (语义角色) ，如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。

依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。

本文来源：https://www.wddqw.com/doc/285b71fceef9aef8941ea76e58fafab068dc4437.html

相关文章：

正在阅读：

语音识别为文字Google微软科大讯飞的语音识别引擎对01-01

2022年四川轻化工大学专升本01-01

养蚕日记(八)01-01

医院传染病报告登记制度01-01

各种特殊符号及拼音字母写法!01-01

高中作文-高考满分作文：但行善举,莫问前程01-01

2020心理健康教育心得体会300字作文01-01

生活随感做一匹自己的“黑马”01-01

用英文描写人物的外貌与五官01-01

上一篇：讯飞听见首款转写机器人正式亮相下一篇：写到秃头？讯飞智能鼠标语音输入让你“动口不动手”!