霍娜

在基础研究、语音技术及服务、网络服务运营、知识库和应用及服务构成的智能语音产业链中,语音技术服务是最为关键的环节。在技术方面,其中,语音识别和自然语言理解是技术突破重点,无论是语料采集、模型训练、抗噪处理,还是语义理解都需要以开放机制来积累海量语音数据,进行深度学习。因此,语音云服务模式备受青睐,以其为基础的智能语音技术开放平台在我国发展迅猛。科大讯飞、捷通华声、云知声、百度、中科模识等都推出了语音云的开放平台。

选择语音云,厂商的理由无外乎以下三点:第一,这是一种新的服务方式,以更低成本提供更高效便利的语音服务;第二,可

以通过这种方式吸引更多的用户,积累更多的语音数据,丰富语料库,提高识别率;第三,只要有用户量,很多商业机会就有了。

记者通过采访发现,科大讯飞、捷通华声、百度、云知声都做语音云,但因运营思路不同,各自的语音云特点也各不相同。

科大讯飞:全方位立体语音云

科大讯飞于2012年10月28日发布首个提供移动互联网智能语音交互能力的“讯飞语音云”平台,并持续升级优化,于2012年推出了新一代语音云平台。新一代“全智能语音云开放平台”专门针对广大开发者的开发需求进行了深度优化,除具备语音合成、语音搜索、语音听写、语音评测等基础能力外,还进一步集成了自然语言理解、个性化语音识别、个性化语音合成、声纹识别等创新语音能力,将能够为各类移动互联网创业者和创新性企业提供无门槛、更全面、更全能的语音技术服务。迄今为止,基于讯飞语音云平台已相继诞生了“讯飞输入法”、“讯飞语点”、“灵犀”等一系列示范性应用,围绕平台的开发伙伴超过1万个,并推动了各类语音应用深入到手机、电脑、汽车、家电、玩具等各大领域,服务数亿用户。

“讯飞语音云用户总量已经超过四亿,活跃用户规模也在不断的提升。我们自建语音云平台,在北京、合肥、广州三个物理节点,目前共有2000多台服务器,是现在业界容量最大,响应最快,开发规模最大的语音交互智能平台。”

——科大讯飞信息科技股份有限公司副总裁 江涛

云知声:动态灵巧语音云

云知声2012年9月发布云知声语音云,是完全免费开放的语音云。它支持大词汇量连续语音在线识别,在云计算平台下,借助深度神经网络、自适应训练、大规模网络动态解码等技术和大规模语料支持,中文连续语音识别的准确率达95%以上,实时率0.2倍实时。基于云知声语音云平台开发的包括搜狗语音助手、联想乐云记事、触宝输入法、酷我音乐、易信、微信语音输入等在内的各类应用每日为数以百万计的移动互联网用户提供顺畅的语音服务。

“云知声语音云已经有几千万用户,可支持上亿用户。现在云知声语音云平台上每天都至少新增几百小时的语音数据,极大地丰富了我们的语料库。我们自己搭建了一套比较完整的云服务平台,包括负载均衡、处理运算、备份等。在识别性能、识别速度、稳定性和动态扩展能力方面,云知声语音云都表现出色。特别值得一提的是,作为对开发者的一个开放平台,云知声语音云为开发者提供的SDK只有几十K,这对开发者来说是很重要的一点,因为用户如果看到应用太大就会放弃下载。”

——北京云知声信息技术有限公司CEO 黄伟

捷通华声:灵云套餐

捷通华声2011年推出全方位人机交互感知云——灵云。灵云不止是语音云,而是一个全方位人机交互感知云,整合了语音交互、图像识别、语义理解、生物特征识别等HCI技术,终极目标是让人机交互就像人和人的交互一样简单自然。灵云语音合成(TTS)技术卓越,合成效果自然流畅、清晰,支持中文普通话、粤语、维语、英语、日语、德语、法语等多语种,支持平台级和嵌入式语音合成;灵云语音识别(ASR)技术的识别率达95%以上,识别速度快,可定制,支持云端和本地识别;灵云手写识别(HWR)技术支持单字识别,中文识别率高达99%,单字识别支持92种语言,支持混合输入中文、字母、数字;灵云光学字符识别(OCR)技术支持文档识别、票据识别、证照识别、条码识别、车牌识别等多种应用领域;灵云自然语言理解(NUL)技术中文分词准确率达97%以上,已广泛应用于智能客服、车载导航、智能家居、可穿戴式设备等领域。

“基于我们自建云平台的捷通华声灵云是一个全方位的智能交互云,是套餐,不是只有语音。它可以用语音、手写、拍照、手势,将来甚至可以用脑波等智能识别手段来实现与手机、计算机等数字设备的交互。”

——北京捷通华声语音技术有限公司董事长 张连毅

百度:开放语音云

2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK)。百度的语音识别技术采用数万小时声学训练语料,百度搜索引擎技术积累的海量文本语料,线上语言模型体积达100G,百度有更精准的基于听觉感知DNN声学建模技术,识别率更高,另外百度高速动态WFST一遍解码技术是中国最快的语音输入法产品技术。在语义理解方面,百度语义理解开放平台支持语义意图理解,支持语义结构化表示,支持天气、日历、音乐等35个垂直领域的定制化解析,准确率平均85%,支持用户上传语料,辅助改善解析效果。百度开放的语音云更有丰富的后端资源支持,可集成搜索、地图、音乐、百科、知道、贴吧、文库、开放平台等百度所有产品和服务。百度语音已经有小米系统级语音引擎方案、中兴驾驶助手、京东全系统企业级语音解决方案、去哪儿语音订票、陌陌语音阅读功能、魅族语音输入法和海尔智能家电等多项应用。

“我们的语音识别可以实现你说我听,解决输入问题,效率更高,声纹识别、语音唤醒,打造不一样的人机交互;语义理解可以实现你说我想,理解用户意图,完成需求分发,整合系统资源;而后台资源则可以实现你说我做,满足用户需求,形成用户行为闭环。”

——百度语音首席研究员 贾磊