章炳捷 式枚 黑屏

2017年11月11日凌晨0点12分,中通物流的快递员敲响了上海嘉定区刘先生家的门,请他签收之前提交的订单。从零点下单,到收到包裹,短短12分钟,凝结的是阿里巴巴的技术智慧。这是阿里巴巴将人工智能应用到实际电商业务系统中的一次重要实践。

人工智能是阿里巴巴从电商企业逐步走向世界级科技先驱的关键技术选择。阿里巴巴应用各种机器学习技术来实现人工智能,包括高维统计、在线学习、转换学习、深度学习等,并在图像、视频、自然语言处理等方面取得创新性突破。

开放的计算平台

刘先生的包裹是这一年双11当天产生的8.12亿个包裹中的一个,他这笔订单的金额是当天1682亿元成交额的一部分。在他提交订单的那一秒,同时还有32.5万笔订单产生。而他点击支付后确认成功的那一秒,有25.6万笔同时支付成功。而在9年前,这两个数字还是400和200。

这一切正是依托于开放的云计算平台——阿里云。阿里云是阿里巴巴的旗下公司,致力于打造公共、开放的云计算服务平台,在杭州、北京、硅谷等地设有研发中心和运营机构。

在计算平台的构建方面,阿里自主研发了两个非常高效、能够胜任海量数据处理的强大的分布式数据计算平台:离线计算平台MaxCompute和实时计算平台StreamCompute。

MaxCompute承载了阿里巴巴集团所有的离线计算任务,是集团内部核心大数据平台。目前,它支撑着每日百万级规模的作业,整个系统拥有数万台机器,单集群规模上万,存储已经到达了EB级别。每天有数千位工程师活跃在平台上做数据处理。实时数据处理平台StreamCompute主要进行流式数据实时化分析,处理各种线上交易并实时汇总计算GMV。

先进的数据平台

2011年的双11,系统要处理3000万笔交易。到了2017年双11,有125个国家和地区超过上亿的用户同时在这一天相互联系在一起。人类商业史上可能还没有过在同一天,有那幺多的人与商家、物流、银行、海关等各个环节发生那幺多的联动。

大数据帮助阿里巴巴建造了世界上最大的零售平台。阿里巴巴之所以定位为大数据公司,就是因为它拥有先进的数据平台。阿里的数据不但种类丰富,而且含金量特别高。它有三个明显的特征:首先,阿里的数据是用户通过购买行为产生的,和搜索等场景相比更加真实;其次,相较于社交等数据,阿里的数据高度结构化,例如淘宝上的商品描述就高达一百多个维度;最后,非常密集而且实时,不管在无线还是PC端,阿里日常都有超过1亿用户在访问。

阿里巴巴每天处理超过100PB的数据。基于跨媒体端的大数据,通过匹配商家的供给和用户的需求,既可以给用户提供更符合个性化需求的商品,也能帮助商户找到潜在的消费者。基于大数据分析的计算广告业务,可以为阿里巴巴平台上的广告商找到更精准的需求人群。

高效的算法平台

2017年11月11日1682亿巨额交易的背后,阿里巴巴依靠智能推荐系统—电商大脑,做到了基于个性化推荐的千人千面,实现了上亿用户和十余亿商品之间的精准匹配,给予消费者购物时的更多选择和更大便利。其间,除了计算平台和数据平台外,还有高效的算法平台也在保驾护航。算法平台包括机器学习、数据挖掘、自然语言处理、图像和语音处理等。

阿里大规模机器学习技术通过分布式部署,在数十亿训练集上训练机器学习模型。建造的参数服务器能处理十亿级的模型参数。基于数据平行化的思维,将数十亿的模型参数分配到一组参数服务器上,并配有失效备援的监测点。

阿里的核心算法平台——PAI机器学习平台,构建于阿里云MaxCompute、图形处理器(GPU)等计算集群之上,汇集了阿里集团大量优质分布式算法,包括数据处理、特征工程、机器学习算法、文本算法等等,可高效完成海量、亿级维度数据的复杂计算和挖掘,给业务带来更为精准的洞察力。平台提供了丰富的组件,包括数据预处理、特征工程、算法组件、预测与评估,所有算法都经历了阿里内部业务大数据的锤炼。

自然语言处理(NLP)基于阿里巴巴自然语言处理云平台(AliNLP),包括阿里分词、浅层句法分析、依存句法分析、商品分析和情感分析等模块。其中阿里分词是最基础的模块,支持中文分词以及日文、英文、法文、希伯来文、印度尼亚文、葡萄牙文、俄文、西班牙文等多国语言,已广泛应用于各业务领域,包括淘宝、天猫、阿里妈妈、1688、神马、聚划算、高德、阿里云等。浅层句法分析提供对某些结构相对简单的成分的识别。依存句法分析,采用LTP的数据规范,提供文本的依存句法关系。

在图像处理方面,阿里印刷文字识别(OCR)引擎可以将图片中的文字识别出来,提供的服务包括身份证文字识别、门店招牌识别、行驶证识别、驾驶证识别、名片识别等证件类文字识别场景。

阿里人脸识别引擎用于提供图像和视频帧中人脸分析,提供人脸相关技术的在线API服务给开发者和企业使用,包括人脸检测、人脸特征提取、人脸年龄估计和性别识别、人脸关键点定位等独立服务模块,可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等各种场景。

超过23万商家通过客户运营平台实现了店铺的个性化运营和粉丝会员的精准营销,显着提升了成交转化。由基于语音识别、语义理解、个性化推荐、客户模型、图像识别等人工智能技术的智能客服,完成了蚂蚁金服双11 当天97%的远程客户服务,而另一个阿里虚拟机器人——阿里小蜜提供的客户服务占到阿里集团双11当天客户服务总量的95%。从9年前第一个双11的错误丛生,到2017年“12分钟送达”的用户购物体验,凝结的是阿里9年的技术进步。

(感谢阿里巴巴集团提供相关信息)