刘 琦 李 翔(共同第一作者)

(知识产权出版社有限责任公司- 知识挖掘与服务重点实验室,北京100081)

对于专利查新检索来说,其最终的目的便是依照检索人员给出的查询返回与此查询相关的专利文本集合,并将这个文本集合按照相关性降序排序后返回给用户使用。在此过程中,排序这一环节对于决定一个搜索引擎的效果来说是至关重要而又意义重大,它直接能够影响搜索引擎的效果以及审查员用户的满意程度。目前,越来越多的人工智能技术运用于专利检索技术,其形成的智能检索引擎相对于传统的全文文本检索引擎,更能模仿检索人员的检索理念,通过对待检专利的理解,抽取关键信息,并进行语义扩展,从而一定程度上提高了专利文献的检准率和检全率,然而单一智能引擎的局限性较大,通过研究评测,发现不同的引擎对于特定的检索案例会有较好的表现,但是对于另一批案例却未必如此。每个引擎很难做到覆盖全面,在所有领域超出其他引擎。因此,本文研究了多个智能引擎整合的策略,使用多引擎结果的互相补充、确定和重调序,可以使得结果更为准确,整体效果在单一的引擎基础上稳定提升。

多引擎策略整体分为两个阶段:第一阶段,是使用多个相对简单的常用专利检索模型对用户query 从索引中快速检索出Top-k 候选结果集。常用检索模型主要有向量空间模型(Vector Space Model)、布尔模型(Boolean Model)、概率检索模型BM25等,通常Top-k 的候选集选取还结合离线计算质量分高的文档以排除掉文本相关但质量分太低的文档;第二阶段,则使用计算相对复杂的机器学习排序模型对Top-k 候选结果集进行精确的重排序,因为Top-K 的候选结果集数据量级一般不会很大,这一步计算可控。多引擎的整合算法,将会是本文的核心,本文中将从结果合集、排序评估,重调序策略等方面对多引擎整合算法的构建与优化过程中的进行说明。

1 多引擎结果合集

多引擎结果合集需要有一个前提,即单引擎必须经过详细严格的召回率的评测,由于篇幅问题,评测方法不在这里详细描述。评测的目的是对引擎有明确的了解,需确认如下信息:

1.1 引擎达到相对最优召回率,所需的检索结果集合数量。理论来说,常规智能搜索引擎,结果条数选取越多,则召回率越高,但是当结果条数突破一定数量之后,召回率的提升速度将会大幅度放缓。多引擎整合策略中,不可能无限制的从各个引擎选取太多的结果进行整合。因此需要通过评测,寻找到召回率相对最佳的临界点,在多引擎整合的时候,使用该临界点提取结果集。

1.2 引擎擅长的领域或者检索方面。不同的引擎有不同的侧重方面。有些引擎可能擅长于生物领域,有些可能擅长于机械领域。有些引擎在跨语言智能检索方面有优势,有些可能擅长与中文检索。有些引擎可能在X 类对比文献的召回方面有优势,有些引擎则擅长寻找Y 类对文献。因此需要通过评测,定位各个引擎的优势点,为多引擎整合提供依据。

多引擎结果合集,也需要对各引擎的输出进行规范化约定:a.各引擎输出自己的前N 个结果。这里的N,就是在评测中得到的最优召回率临界点。b.每个引擎在自己的结果提交中,使用专利申请号作为关联标识进行结果提交。c.每个引擎需提交结果的申请号单,以及结果集中每件专利的相似度排序以及相似度值(相似度值需是数字,并且做归一化处理);多引擎结果合集最终选择各个引擎的结果集的并集,去重后作为多引擎整合调序的对象集合。

2 多引擎整合调序策略

本次实验中,针对多引擎结果合集的整合和重新调序,提出了三种调序策略,以及一套调序策略综合方案。

2.1“主- 副”型多重确定整合策略

该调序策略的主要思路是,充分利用各个引擎的结果及排序,使用各结果集的相关度排序结果进行多重确定,将其结果的相似度数值进行线性加合,得到多重确定的专利结果集。首先是“主- 副”引擎的选定,之所以需要进行这个操作,基本原因在于两点。单引擎评测时,多个引擎的评测水平可能出现较大差异,我们需要定下线性整合时的权重,权重需更加偏向于效果最好的引擎,从而保证可以得到在最好的单引擎基础上的更好的检索结果。而不至于让相对质量较差的引擎“拖后腿”。“主-副”引擎的模式,可以在不同的检索侧重领域灵活变化,以适应各个引擎的优势。在“主- 副”引擎选定的基础上,可以进行如下的调序操作:a.主副引擎检索结果求并集。假设并集数量为M(本课题实验环境下,双引擎结果并集数量为总结果合集的10%左右);b. 将并集结果作为新结果集的前M件专利结果,使用这M件专利在主引擎中的排序作为最终排序;c. 剩余集合,采用A*主引擎相似度+(b1*副引擎1 相似度+ b2*副引擎2相似度+……+ bn*副引擎n 相似度)的方式,加权多引擎相似度,并按照加权相似度进行重新排序(注意,a 要远大于sumb);该策略属于保守型策略,优点在于排序计算快(其计算速度相对于智能检索环节几乎可以忽略不计),提升稳定(肯定可以比最好的引擎提升一点)。缺点在于提升不大,可能会丢弃一些副引擎挑选出来的好专利。

2.2“多级文本聚类”整合策略

多级文本聚类策略,完全摒弃了单引擎提供的相似度排序信息,而使用独立策略进行重新整合调蓄。它的基本操作如下:

a.对多引擎检索结果合集进行特征抽取(可以使用智能检索环节的抽取结果);b.将待检专利加入结果合集;c.对步骤2 的集合进行多次控制类别数量的文本聚类,聚类的类别(转下页)数量从2 开始,成等差数列,至结果集专利数/5 为止(等差数列的间隔可以自行选择,本课题实验环境下为10);d.记录每一次聚类的结果。在每一次结果中,与待检专利聚为一类的专利记分为1,否则记0。e.多级聚类完毕后,累加每一件专利的积分;f.使用积分进行重新排序(若专利重分,可以使用多引擎相似度线性加成进行细排序)多级聚类策略的优点,在于进行了重新的语义抽取和排序,完全不受前一个环节检索结果的影响。它的智能抽取细化程度可以远远超出智能检索环节。例如智能检索环节的语义要素抽取,最多至50 个就会影响检索策略了,但聚类环节可以到数千个。这样,语义特征就更加细致,其聚类结果可能能够更准确的表征语义相关度。该策略的缺点,在于多重聚类的耗时非常的长,有可能大幅度降低智能检索的效率。

2.3“神经网络”分类策略

“神经网络”分类策略是将排序问题转化成为了分类问题,使用一个训练过的神经网络分类器,对专利进行二元分类(是X类文献,不是X 类文献),将其分类结果,按照分类倾向性进行排序。其基本操作流程是:a.使用审查员历史审查数据中的X 类对比文献和待检专利,作为训练数据,对一个神经网络模型进行训练(本课题使用的为CNN 卷积神经网络);b.将待检专利作为输入,输入到训练好的神经网络模型中,输出它的分类结果。c.使用分类结果进行排序(X 类文献在前)。

“神经网络”分类策略的优点在于:a.速度快。虽然神经网络模型的训练需要耗费大量时间,但是一旦训练完成,在实际检索运算中,计算速度是非常快的。b.带有自学习能力。神经网络模型可以通过过往检索人员的检索结果,学习训练自己的分类模型。这使得整个系统是在不断改进提升。c.对历史数据的拟合非常的好。在训练集合足够大的基础上,对以前检索人员检索结果的拟合可以达到其他智能引擎不能比拟的程度。但是在本次实验研究有限时间内,神经网络分类策略的结果并不好,究其原因在于:a.训练集合严重不足。本研究时间有限,仅使用了数千篇专利作为训练集,远远不够。但即便是2010 年以后公布的所有带X 类对比文献的专利,总量也仅有数十万。该数量对于深度训练是有些不足的。b.分类任务的描述设定存在局限性。本次研究之所以将分类任务设定为二元分类(是X 类对比文献,不是X 类对比文献),是因为X 类文献相对于非对比文献,有着较为明确的差异,而且所需训练集少,工作量可以接受。但这个任务假设过于简单,对于专利查询结果的各类情况考虑不足,可能导致训练集合永远无法拟合。

2.4 调序策略综合方案

本节提出了三种整合调序策略,其实随着研究的深入,还会有更多的可用调序策略。每个策略都会有其优点和局限性。又会引发一个“老”问题:我们是在这些策略中选择一个?还是有办法综合评价?从本次实验研究的结果来看,显然还是综合评价会得到较好的结果。但由于时间有限,没能在这个基础上再进行进一步的研究。不过可以提出一个思路,给后续的研究者。a.将调序算法n 得到的排序,进行排序的归一化处理,某一件专利在调序算法n 下的排序分值为Xn=(集合总数- 排名)/集合总数。b.设定权重值A1、A2、……An;c.求Y=A1×X1+ A2×X2+…..+ An×Xn;d.使用Y 值做最终的排序。可见,这仍然延续了多引擎策略的思路,多策略结果整合。