麦克风阵列数据标注规范

时间:2023-03-15 19:54:18 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
内部公开



文档密级:内部公开

麦克风阵列数据标注规范

1. 标注任务目标

标注任务就是标注声音文件内容,把“内容栏”的文本与音频真实发音修改一致,最终

获取到语音正常的声音文件。 2. 标注任务方式

1) 标注采用标注+检查的方式,保证数据质量;

2) 标注音频数据总分两大类,好数据、坏数据。好数据指发音人是在与系统对话,且语音

波形完整、内容清晰的正常数据;坏数据指无效数据;

3) 内容与音频一致指音频发出内容与内容栏文本完全一致(没有错别字)内容与音频不

一致指音频发出内容与内容栏文本不一致,需要人工操作修改一致。详细说明见下表: 数据分类

子分类 内容与音频一致

好数据

内容与音频不一致

坏数据

3. 好数据文本通用录入标准

3.1 转写内容要反应真实读音且遵循词语固定搭配,带口音用普通话意思转写合理文本,

频读音都需转写,标点符号及特殊符号无需录入,必须用简体字录入,不可增减字、错字;人名、小区名、道路名无法确定用字时,录入准确发音的常用字;

3.2 真实发音为“我去哪哪里呀”“哪”字有重复,就要忠实地录成“我去哪哪里呀”。另

由于口音或个人习惯导致的音变,按普通话标注音录入;

3.3 多音字或生活中有不同发音的字,也按普通话标注音录入。例如,“办公室”的“室”

有人说成shǐ,有人说成shì,都录成“办公室”

3.4 常见固定方言、外语例如四川话“瓜娃子、滚犊子”,如日语“卡哇伊,莫西莫西”

泰语“萨瓦迪卡”等需转写;

网络用语热门:童鞋、灰常、杯具、表酱紫,坏银、鸡冻等可按此转写; 常见互联网热词:讯飞输入法,灵犀,讯飞语点,苹果siriwlanwifi等; 常见语气词或脏话:语气词反应真实读音,例如唉、哎,哦、噢;脏话如 二屄 屌丝



内容栏文本根据音频修改一致,点击“下一句”

点击“标记不可用”,继续标注

标注方式

无需操作完成本条标注,点击“下一句”


内部公开



等,切误用字母代替;

3.5 对于儿化音,也要忠实于发音录入。例如,发音是“哪儿”,就录成“哪儿”,没有发出

儿化音的,就录成“哪”

3.6 发音停顿录入文本连续,不需要空格或添加符号,英文缩写除外;例如,whats your

name”中的撇号必须是英文状态下录入,特殊符号读法“#”录入“井号键”*”录入“星号键”

3.7 不允许录入阿拉伯数字需转换汉字,例如,1”转”“或“幺”根据真实发音录入,

如读120可录入“幺二零”;也可点击【数字转中文】【数值转中文】进行“阿拉伯”到“汉字”转换;

3.8 语句中包含英文单词或字母根据发音录入,字母要大写,字母与字母之间空一格,“单

词要小写”,单词与单词之间空一格,汉字与字母或单词之间不需要空格;

例如,发音一个字母读“O P P O”则按照字母录入,若是连读“oppo,则按照单词录入;例如:如“三W点”则根据真实发音录入; 3.9 麦克风阵列规范补充:

1) 一人说话,能听清的都需要标注,听不清则标坏;

2) 两人以上说话,说话人语音都听清的都需要标注,若其中一人或多人说话重合严重听不

清,则直接标坏;

3) 截断数据若能听清楚被截断的字词,则需要标注有语音的听到的内容,被截断的字词若

听不清,则为坏数据;

4) 对于音频中含异常噪音(电流声、噗噗..)算作好数据,能听清的需要标注; 5) 对于其他说话声、环境噪音和设备噪音(手机滴滴音、手机震动音、log音)都为背景

噪音,不需要转写;

6) 对于包含唤醒词的除了标注文本还需要加注标签,其他的均只要标注音频文本内容即可,

不需打标签;

每批数据都需要向众包说明唤醒词是什么;

如小白小白、公子小白、公子小哥为纯唤醒词,标签注明为:纯唤醒词; 如小白小白你好吗、公子小哥在干嘛„,标签注明为:含唤醒词;

如小白在干嘛,小白、小哥„,此类标签注明为:唤醒词不完整;

7) 说话参杂人声非语音(咳嗽、清嗓子、打喷嚏、笑声等),只转写主发音人说话内容,

对于笑声是说出来的要转写,若是自然笑无需转写;


本文来源:https://www.wddqw.com/doc/da935a753868011ca300a6c30c2259010202f3b8.html