大公產品

首頁 > 文章 > 正文

字错率3.71%创中文语音识别新高 开放平台联袂微软华为拓市场

時間:2018-12-11 16:55:03來源:大公网

  大公网12月11日讯(记者 夏微)11日,国内AI独角兽公司依图科技公布了在中文语音识别技术上的最新突破。在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)仅为3.71%,相比原业内领先者提升约20%,大幅刷新现有纪录。此外,依图还联合微软Azure推出依图语音开放平台,并携手华为发布“智能语音联合解决方案”,将语音识别技术提供给广泛的第三方应用开发者,共同推动智能语音行业的进步。

  虽然近年来语音识别技术高速发展,但与人脸识别的准确率仍有差距。对语音识别来说,语速、语态、语气、口音等都会显著影响识别的准确率。一般认为,字错率在低于3%时不会影响可读性,而超过15%则毫无可读性。这两个数据可认为是语音识别的两条红线,而在不同场景下,不同算法的表现可能会有很大差异。中文更是给语音识别的处理难度带来极大挑战,显著影响最终的使用体验。

  据悉,依图此次推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,且在单个算法模型上,有极为出色的多场景适用性表现。在业内近期公开的目前全球最大的中文开源数据库AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图均处于业界领先水平,且字错率几乎全部在15%以下。其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率(CER)仅为3.71%,领先行业第二名约20%。

  值得一提的是,基于在语音识别领域的技术突破,依图与微软也宣布进一步深化合作伙伴关系,联合推出依图语音开放平台,并共建AI生态。此外,依图还携手华为联合发布“智能语音联合解决方案”,借助该解决方案,第三方应用开发者可进一步提升开发效率,从业界领先的语音技术中受益。依图方面预计,在未来6至12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。

最新要聞

最新要聞

最受歡迎