第五届中国(国际)物联网博览会
中国  •  厦门国际会展中心
厦门市思明区会展路198号
时间:2019年7月11-13日
展商信息


云知声将携行业一流水准声纹系统亮相第五届中国(国际)物联网博览会

发布时间:2019-01-29

声纹识别(VoiceprintRecognition,VPR)也称说话人识别,是一种通过声音判别说话人身份的技术,分为说话人辨识和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,即“ N 选一”;后者用以确认某段语音是否是指定的某人所说,是“1对1匹配”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需用到确认技术。

说话人A和B都说”四”的波形及频谱对比

说话人A和B都说”四”的波形及频谱对比

作为国内为数不多具备全栈语音技术能力的人工智能公司,云知声已在声纹技术领域深耕多年。团队多位技术骨干曾在美国国家标准技术署(NIST)主办的说话人识别技术评测中多次斩获第一名。早在 2004 年,就职于摩托罗拉公司的云知声创始人黄伟博士便带领团队研发出世界上第一款手机声纹认证系统,搭载该系统的相关产品总计销量超 2 亿台。

虽然声纹识别优势明显,但要想准确分辨声音特征却并非易事。首先,声纹识别系统性能会受用户发声状态影响,如用户的身体状况、情绪等都会影响识别准确度。其次,环境的嘈杂度,以及采集、传输音频的硬件配置,都会在不同程度上对识别系统行成干扰。

为解决上述问题,云知声声纹技术团队进行了一系列技术攻坚与创新:

首先,依托云知声强大的语音信号前端处理技术,如 VAD、语音降噪等,准确地捕捉到人声并进行背景噪声消除。

其次,云知声将 DNN 引入到传统声纹识别 ivector 技术框架中,并融合最新端到端声纹识别技术,基于云知声超算平台和海量声纹训练数据,使得模型得以学习到数万说话人,每人多种发声的特性,且在云端针对每个用户采用说话人自适应技术,达到越用越好的效果。在信道处理上,采用 PLDA 信道补偿技术,可将信道影响降到最小。

近年来,伴随深度学习的兴起,云知声在国内率先将深度学习技术使用到语音识别中,且后续引入到声纹识别领域,解决了一系列声纹技术实用难点,并应用到实际产品上。云知声和平安好医生联手打造的平安好医生客户端用户声纹登录系统便是其中一项成功案例。