IVR语音机器人的研究与实现 摘要:本文针对通信运营商网格人员由于经常外出拓展业务或工程施工等,导致无法及时处理工单而超时被扣分的问题,通过开发IVR语音机器人,引入SIP协议、语音合成AI模型、规则引擎等,实现自动呼叫、语音播报、按键确认等能力,达到工单及时催办的效果。 关键词:IVR;SIP;语音合成;深度学习 随着通信运营商深入开展网格化工作,入格的产品和工作越来越多,网格人员经常需要外出推广产品拓展业务或开展工程施工等相关工作,以往通过推送短信提醒的方式效果并不好,在外面跑的网格人员往往没有留意短信,导致可能影响工作正常开展,甚至客户投诉。为了有效解决该问题,本文通过引入SIP协议(Session Initiation Protocol,会话发起协议)、语音合成AI模型、规则引擎等开发了IVR(Interactive Voice Response,互动式语音应答)语音机器人,主要包括语音服务、引擎服务两大模块,提供自动呼叫、语音播报、按键确认等功能,在后台系统收到工单时自动对网格人员发起呼叫,实现了工单的及时催办。 1.语音服务 该模块主要提供语音相关的服务能力,主要包括: (1)SIP接口:基于SIP 2.0协议,通过解析底层请求报文,研究SIP协议通信集合及软电话终端的控制集合,对SIP请求消息、响应消息进行封装,包括INVITE,ACK,PRACK,BYE,Trying,Ringing,OK等消息; (2)语音接口:基于封装后的SIP接口实现语音账号注册/注销、自动呼叫、播放语音、按键回复等能力,方便与引擎服务进行对接; (3)软电话终端:开发的一个简易拨号盘,主要用于开发过程中的呼叫相关测试; (4)语音播报:为了能够在发起呼叫时自动提醒工单关键信息,将工单的单号、标题、时限等信息组成一段提醒文字,通过引入端到端的语音合成AI模型,自动将该提醒文字转为语音,在发起呼叫接通后进行自动播放,例如:“你好,你有一张工单将于(处理时限)超时,请尽快处理,工单号为(工单号),工单标题为(工单标题),确认请按1”。 本文引入的基于深度学习的端到端语音合成模型是TACOTRON 2,该模型的核心由seq2seq,attention构成,通过输入文本字向量,对输出的结果再使用Griffin_lim算法即可生成对应的音频。输入文本后便能直接得到音频结果,使用起来非常便捷。其中,在训练模型时,通过将通信运营商网格工作的相关术语作为语料库构建字典,再使用词嵌入方式学习词向量,经过编码层和注意力循环神经网络(attention-RNN)进行解码,最后通过Griffin-Lim算法合成音频。 2.引擎服务 该模块主要提供业务相关的引擎服务能力,主要包括: (1)工单采集:结合两种方式采集工单,一种是通过连接数据库或调用接口的方式直接获取工单信息,另一种是通过网络爬虫的方式抓取数据。本文的应用场景主要是实现对宽带新装工单的超时提醒,由于没有现成接口,本文采用python对宽带业务相关系统进行爬虫,抓取网格人员姓名、手机号码、工单号、工单标题、到期时间等数据,设置定时,每5分钟自动抓取一次最新工单数据; (2)规则引擎:由于不同类型工单的超时时限不同、提醒环节不同等等,为了更加灵活地配置语音呼叫的触发规则,基于开源Easy-Rules构建规则引擎,将一条条的触发规则配置在里面,实现触发规则与系统逻辑的解耦,以便于可随时更新规则,使得整个应用更加灵活。 图2 系统功能模块图 主要实现以下功能: (1)自动呼叫:当出现工单符合提醒规则时,后台触发自动发起语音呼叫给指定的人员; (2)语音播报:用户接通电话后,自动加载该用户的相关工单关键信息,自动转为语音进行播报; (3)按键确认:支持用户在通话过程中按数字键,以回复确认; (4)工单采集:根据业务场景,采集相关系统的工单数据; (5)规则引擎:通过规则引擎配置语音呼叫的触发条件,可在后台随时更新。 4.应用效益 IVR语音机器人上线后,由后台程序小时进行监测,在工作时段内,当有宽带新装工单超过1个半小时未处理(2小时超时),则立即发起语音呼叫提醒,上线后工单处理的及时率相比提升了20%以上,有效地提升客户满意度。 在IVR语音机器人呼叫后,网格人员必须按数字键进行回复确认,以此反馈给后台确认已经有收到。通过这种方式,有助于提升网格的管理效率。 5.结论 本文针对网格人员经常外出而无法及时处理工单的问题,基于SIP协议、语音合成AI模型、规则引擎等研究实现了IVR语音机器人,适用于室外工作环境或重要指标监控等场景,在工单催办、工单审批、异常数据告警等方面将具有很强的实用性,应用价值高。 参考文献: [1]张春平,宋茂斌. 基于语音识别的IVR系统的设计与实现[J]. 微计算机信息. 2007,23(4):264-266 [2]马欢,俞勇. 基于SIP的交互式语音应答(IVR)系统的设计与实现[J]. 微型电脑应用. 2007,23(4):53-55 [3]王国梁,陈梦楠,陈蕾. 一种基于Tacotron2的端到端中文语音合成方案[J]. 华东师范大学学报(自然科学版). 2019,(4):111-119 作者简介:陈晓冰,男,毕业于中山大学,硕士研究生,研究方向为大数据、人工智能、IT系统架构,现任中国移动汕头分公司客户运营中心分析支撑室主任,从事信息化系统建设相关工作。 黄楚发,男,毕业于汕头大学,本科生,研究方向为信息化系统、人工智能,从事信息化系统建设相关工作。 本文来源:https://www.wddqw.com/doc/132e382053e79b89680203d8ce2f0066f4336440.html