内部公开 文档密级:内部公开 麦克风阵列数据标注规范 1. 标注任务目标 标注任务就是标注声音文件内容,把“内容栏”的文本与音频真实发音修改一致,最终获取到语音正常的声音文件。 2. 标注任务方式 1) 标注采用标注+检查的方式,保证数据质量; 2) 标注音频数据总分两大类,好数据、坏数据。好数据指发音人是在与系统对话,且语音波形完整、内容清晰的正常数据;坏数据指无效数据; 3) 内容与音频一致指音频发出内容与内容栏文本完全一致(没有错别字);内容与音频不一致指音频发出内容与内容栏文本不一致,需要人工操作修改一致。详细说明见下表: 数据分类 子分类 内容与音频一致 好数据 内容与音频不一致 坏数据 3. 好数据文本通用录入标准 3.1 转写内容要反应真实读音且遵循词语固定搭配,带口音用普通话意思转写合理文本,音频读音都需转写,标点符号及特殊符号无需录入,必须用简体字录入,不可增减字、错字;人名、小区名、道路名无法确定用字时,录入准确发音的常用字; 3.2 真实发音为“我去哪哪里呀”,“哪”字有重复,就要忠实地录成“我去哪哪里呀”。另由于口音或个人习惯导致的音变,按普通话标注音录入; 3.3 多音字或生活中有不同发音的字,也按普通话标注音录入。例如,“办公室”的“室”,有人说成shǐ,有人说成shì,都录成“办公室”; 3.4 常见固定方言、外语:例如四川话“瓜娃子、滚犊子”,如日语“卡哇伊,莫西莫西”,泰语“萨瓦迪卡”等需转写; 网络用语热门:童鞋、灰常、杯具、表酱紫,坏银、鸡冻等可按此转写; 常见互联网热词:讯飞输入法,灵犀,讯飞语点,苹果siri,wlan,wifi等; 常见语气词或脏话:语气词反应真实读音,例如唉、哎,哦、噢;脏话如 二屄 屌丝 我无 内容栏文本根据音频修改一致,点击“下一句” 点击“标记不可用”,继续标注 标注方式 无需操作完成本条标注,点击“下一句” 内部公开 肏 等,切误用字母代替; 3.5 对于儿化音,也要忠实于发音录入。例如,发音是“哪儿”,就录成“哪儿”,没有发出儿化音的,就录成“哪”; 3.6 发音停顿录入文本连续,不需要空格或添加符号,英文缩写除外;例如,“what’s your name”中的撇号必须是英文状态下录入,特殊符号读法“#”录入“井号键”;“*”录入“星号键”; 3.7 不允许录入阿拉伯数字,需转换汉字,例如,“1”转”一“或“幺”根据真实发音录入,如读“120”可录入“幺二零”;也可点击【数字转中文】【数值转中文】进行“阿拉伯”到“汉字”转换; 3.8 语句中包含英文单词或字母,根据发音录入,字母要大写,字母与字母之间空一格,“单词要小写”,单词与单词之间空一格,汉字与字母或单词之间不需要空格; 例如,发音一个字母读“O P P O”则按照字母录入,若是连读“oppo”,则按照单词录入;例如:如“三W点”则根据真实发音录入; 3.9 麦克风阵列规范补充: 1) 一人说话,能听清的都需要标注,听不清则标坏; 2) 两人以上说话,说话人语音都听清的都需要标注,若其中一人或多人说话重合严重听不清,则直接标坏; 3) 截断数据若能听清楚被截断的字词,则需要标注有语音的听到的内容,被截断的字词若听不清,则为坏数据; 4) 对于音频中含异常噪音(电流声、噗噗..)算作好数据,能听清的需要标注; 5) 对于其他说话声、环境噪音和设备噪音(手机滴滴音、手机震动音、log音)都为背景噪音,不需要转写; 6) 对于包含唤醒词的除了标注文本还需要加注标签,其他的均只要标注音频文本内容即可,不需打标签; 每批数据都需要向众包说明唤醒词是什么; 如小白小白、公子小白、公子小哥为纯唤醒词,标签注明为:纯唤醒词; 如小白小白你好吗、公子小哥在干嘛„,标签注明为:含唤醒词; 如小白在干嘛,小白、小哥„,此类标签注明为:唤醒词不完整; 7) 说话参杂人声非语音(咳嗽、清嗓子、打喷嚏、笑声等),只转写主发音人说话内容,对于笑声是说出来的要转写,若是自然笑无需转写; 本文来源:https://www.wddqw.com/doc/da935a753868011ca300a6c30c2259010202f3b8.html