于洋

摘要:大数据与人工智能对知识生产非常重要,大数据可以帮助我们进行智能选题。当前各出版机构选题多依赖于编辑自身的视野。他/她能否看准一个方向很大程度上取决于是否有足够多的信息。当大家所拥有的数据、知识、信息是平等的时候,人们就可以从事深入的分析工作,而不是还要去考虑担心怎样搜集数据,编辑们可以更加专注于如何利用这些已有数据的分析结果产生更有价值的知识。这是我们作为一家大数据企业对这个问题的思考。

关键词:机器翻译 出版 语言大数据 人工智能 知识服务

中译语通科技股份有限公司成立于2013年,其母公司是中国对外翻译有限公司,隶属于中国出版集团。业务发展从最早的多语言呼叫中心,到机器翻译,再到大数据、人工智能。如何能够真正利用大数据与人工智能反哺新闻出版业,是中译语通一直在思考和探索的课题。

中译语通5年来的发展成就

2015年中译语通获批从中国出版集团中分拆出来独立筹划上市,这是上级主管单位对中译语通在科技领域探索的大力支持。回顾发展历程,5年来中译语通从最初发布多语言呼叫中心,到今天已发展成为知名的品牌。中译语通呼叫中心提供的不仅仅是语言服务,而且更深入到语言文本及语音,并应用人工智能技术分析文本背后的数字关联。中译语通每周可向客户提供数据分析报告,为客户提供更加丰富的决策支撑。2014年中译语通开始机器翻译的研发,至今已取得了值得骄傲的成绩。在2017年国际口语机器翻译评测大赛中,与来自全球7个国家的强劲团队同场竞技,在全部20个语言方向的评比中,中译语通在16个语言方向上都获得了第一名,最终以综合成绩第一夺得大赛冠军。

在机器翻译领域,大家所熟识的公司做的基本上都是通用引擎。中译语通努力切入垂直领域,如新闻、出版、科技、专利等,在这些垂直领域运用最新的卷积神经网络机器翻译技术,译文质量非常好。这是一个逐渐改进的过程,公司每天都在投入大量人力、物力进行算法优化。那幺机器翻译与出版有什幺关联?很多人会讲,让机器翻译一本小说它肯定翻译不了。但是,我们假定一个条件,如果把杨宪益先生翻译的《红楼梦》版本拿给机器去做训练,之后再出现任何一个《红楼梦》篇章,翻译出来的就是杨先生的版本,那幺我相信这可能比99.9%的人翻译得都好。事实上不论机器翻译还是医疗影像、癌症的识别,它的效果优劣取决于我们在建构系统时采用何种质量的数据集以及何种标准。

从2016年开始,中译语通的探索从机器翻译延伸到了大数据,包括语音识别、图像与视频内容的分析。中译语通在努力探寻数据背后的逻辑关系,即知识图谱。首先中译语通分析的是跨语言文本信息,当用户搜索一个中文关键词时,他/她得到的不是单一的中文结果,而是所有语言的集合。如果把所有语言符号标识去掉的话,可想而知数据量级非常大。而除文本以外,今天互联网上产生的信息60%以上都是视频和音频数据,如果能让机器理解每一帧图像的内容,将图像、语音和文本内容的含义叠加起来,进行定性定量分析,其价值是非常巨大的。

文本、语音和图像等数据被重塑后的价值

文本、语音和图像这三个要素,当这些数据被重塑,建立起知识图谱将拥有难以想象的价值。中译语通要探索的是如何利用大数据技术和人工智能技术,来帮助用户发现知识、消费知识、生产知识。在这个过程中语义分析技术与知识图谱的构建至关重要。

目前无论是通用搜索引擎,还是本地数据库中的搜索,大部分结果仍然是篇章级的。对于真正实现基于大数据的知识服务,篇章级的结果略显粗糙。试想一下,面对100万册图书,如果我们想要从中获取量子力学研究相关的知识,那我们需要读完10万本书还是1万本书?我们能不能将这些图书里面的知识抽取出来,将所有全球权威的量子力学专家们在某一条知识上的观点,精细化地抽取出来,把所有不同语言文本中的同一条知识以及针对这条知识的观点全部抽取出来?如果可以做到,那幺价值无疑是巨大的。但事实上这些知识、数据、信息已经是结构化的数据,都存在那里,只不过仍未数据结构化,即便数据结构化了,也可能是英文、德文、阿拉伯文的,过去我们需要人工翻译出来,很显然极不现实。事实上数据一直是存在的,但我们没有能力去获取它。而大数据技术和人工智能技术能够帮助我们将历史数据建立知识图谱,建构逻辑关联,实现真正的知识服务。

NexMagic是中译语通2017年12月20日发布的目前市场上基于语义分析的搜索引擎。它与所有其他搜索引擎的不同之处在于它是垂直的,目前垂直领域包括新闻、科技、专利、企业、体育等。每一次搜索,是围绕这个词以及与它语义上相关的信息来展开的,它不一定包含这个关键词本身,而是基于语义的,基于你真正想要的知识。中译语通用不同的色块来区分基于语义搜索的结果,也体现了语义分析的篇章数。

中译语通在这个引擎里也嵌入了中译语通的机器翻译,结果是跨语言的,在里面搜索一个中文的关键词,可以得到多语文本的结果。目前支持37种语言,其中25种已经应用了最新卷积神经网络。笔者认为,机器翻译对于我们人类最大的意义在于它扩大了人们对信息认知的广度和深度。试想一下,一篇文章摆在某个地方,你根本不知道它是什幺语言的,何谈理解呢?而机器翻译能帮助我们快捷地发现我们想要的知识与信息,然后我们再去关注翻译的质量。

知识发现与知识消费

关于知识发现,我们的目标是要变被动为主动,实际上是通过用户习惯,以知识为单位,发现最权威的专家以及其最重要的着作、观点等一系列相关信息。从知识出发,再到人,形成基于人的画像,包括这位专家的研究领域、出版物、重要观点、论文等。然后再基于机构的主体,它有多少家子企业,出版多少图书,图书信息如何,这其实是基于不同的点而形成的真正的大数据画像。这些信息不仅是中文的,而且是各语种的,而这个库一定是去掉语言符号的、定性定量分析的所有数据集合。目前基于人物画像的关联关系在大数据领域已不再是新鲜事物,通过开放的社交媒体、新闻媒体等非结构化数据可以描画出来,体现一个作家和出版社的关系,他的朋友圈关系。这同样适用于公司之间,合作伙伴之间,图书之间的关系,而归根结底就是数据之间的联系。这些画像能够引导我们找到所需要的知识。

中译语通的数据星云(Data Galaxy)系统就是一个知识图谱的可视化平台。以全球科技数据的成果分布为例,平台上每一个细微的点代表全球范围内的十万条科技数据。可以通过放大,看到每一条连线,来体现科技成果之间的逻辑关联。系统会按照新闻、期刊、单位、会议等类别分析,用知识图谱画出全球科技成果的呈现类型,形成一个看得见的知识图谱,适用于每一条知识。对于出版单位,无论是专家资源梳理,出版物存档,还是知识服务的归集,都可以用知识图谱来完美地呈现出来。

关于知识消费,同样是基于建构起来所有的知识之间的关联关系来实现。同类型研究文章、图书发布态势,辅助选题等指标可以通过系统完整地分析出来。

平台还支持技术生命周期曲线分析,全球知名咨询公司Gartner每年都会发布信息技术生命曲线报告。这些曲线更多是通过调查问卷的形式设计完成,由专家给出趋势预测,和大多数行业分析报告一样,结论偏于主观判断,缺少数据支持。试想一下,如果能够把过去20年、30年所有的数据聚集起来,并将公司研发、专利申请、现有产品、孵化产品等各项数据都在图谱中标注,连接起来,那幺就能得到一条真实的技术生命周期曲线,而不是一成不变、推想的一条曲线。由此可见,大数据为知识服务赋予了很大的想象空间。

大数据与人工智能对知识生产的重要性

大数据与人工智能对知识生产非常重要,大数据可以帮助我们进行智能选题。当前各出版机构选题多依赖于编辑自身的视野。他/她能否看准一个方向很大程度上取决于是否有足够多的信息。当大家所拥有的数据、知识、信息是平等的时候,人们就可以从事深入的分析工作,而不是还要去考虑担心怎样搜集数据,编辑们可以更加专注于如何利用这些已有数据的分析结果产生更有价值的知识。这是我们作为一家大数据企业对这个问题的思考。

目前中译语通的数据平台已有全球范围内超过3000万册的图书信息。无论是电商平台、书评网站,还是社交媒体,对于每条知识、热点讨论话题都可以分析出来。当大家都想出区块链题材图书的时候,你就要知道市场上已经有多少相关图书,当你知道全球或全国的出版社中有一半以上都在出同一个主题图书的时候,那幺你可能需要大数据来帮助你进行差异化选题了。

此外,中译语通也在进行新闻写作与智能采编的研发工作。想象一下,当互联网产生第一条相关数据的时候,我们可以在第一时间获取,并且迅速基于机器翻译无障碍地理解这条数据,无论其源语言为何,然后通过机器智能采编成一条观点完整独特的新闻。基于这些技术和创造出的内容,我们又可以创造出很多新的知识服务的形式。这是大数据在新闻垂直领域中的一个切入和应用,所以说数据启迪未来!

中译语通希望与新闻出版业的从业者一起去研究,在未来的知识服务中,这些大数据、语音识别、机器翻译技术等如何去应用。

未来已来,我们探索并期待着。

( 作者系中译语通科技股份有限公司CEO )