刘羽丰 王进福

摘要:词典电子书的格式繁多,从pdf到mobi格式再到epub格式等,但它们都不利于单词的查询,而对于现有词典软件或应用,它们只能在线使用,创新型电子词典的制作与应用便完美地解决了上述问题,既可以当作离线数据库供使用者使用,又支持全索引查询单词,并且支持联合查询,使用起来简单方便,并且可以随时根据自己所需,制作相应全索引反查词典等,从而达到全文搜索的目的,并且省时省力。

关键词:电子书;词典

中图分类号:TP311文献标识码:A

文章编号:1009-3044(2020)19-0033-03

开放科学(资源服务)标识码(OSID):

1 简介

电子词典是外语学习者必备的工具,而随着数字媒体技术的发展,更多的外语习得者因为纸质词典的厚重的体积以及不便于携带性,更偏向使用电子词典而非纸质词典,而现在市面上出现的电子词典都各自有各自的缺点。电子词典有许多种样式,有的是词典电子书,比如pdf,mobi或者epub格式,它们作为电子书,是用来为使用者翻阅浏览每一页的,而要实现对于某个单词的定位查询这一点,却是又费时又费力,因为它不像词典软件,有查询单词的输入框,需要使用者像使用纸质词典一样一点点翻阅每一页,然后才能找到想要查询的单词的页码,从而找到所查询的单词。而创新型电子词典却正好弥补了这一缺点,实现与电子词典软件一样的输入查询模式,只要词典收录了该词条,便可以通过输入该单词,查询到相关的解释。对于电子词典软件或者应用比如有道词典或者金山词霸等,它们虽然可以实现查询栏输入功能,但是必须在线使用,也就是不能离线状态下查询单词,这就大大降低了使用者的使用范围,并且里面的权威品牌词典多数都需要收费才可以使用,多种限制条件也对于使用者不是很友好,并且不能实现联合查询,而这些缺点再创新型电子词典上,都可以得到解决,也即是创新型电子词典的优势所在。对于在线词典网站,道理也是一样,只能在线使用,不能离线使用,而创新型电子词典,可以作为外语习得者的离线数据库,无论是后期美化还是提取相关文本,都是可以实现的,并且可以根据自己所需,进一步处理词典文本,比如制作反查词典或者提取词组等以及拓展单词曲折库,达到全文检索的目的,从而大大提升离线数据库的检索可查询功能,省时省力。

2 创新型电子词典的制作

创新型电子词典包括两种类型:图片版电子词典和文字版电子词典。关于制作创新型电子词典,无论哪种类型的创新型电子词典的制作,都需要借助正则表达式,Excel函数以及py-thon来编辑制作。

2.1 图片版创新型电子词典的制作

图片版创新型电子词典与文字版创新型电子词典相比,最大的优势就是数据准确无误,数据值得信赖。因为它是词典编纂者的第一手资料,没有经过后期的处理,所以不会有任何处理上的错误。以《牛津高阶英语学习者词典英汉双解》第9版的图片版词典制作为例,首先需要买到纸质版词典,然后拆书扫描或者上网找到该电子书的pdf格式,之后将pdf格式的该电子书拆分为单页图片格式,拆分之后就需要我们对所有页码上的所有单词进行索引化处理。

2.1.1 索引化处理

索引化处理有几种方式,比如制作pdf格式的图解词典,词典最后的页码上有该书所有单词和相关的页码,即可ocr获取、校对,之后用正则表达式批处理到我们需要的格式即可,或者有些dk图解的pdf电子书可以直接复制下来所有的索引,即复制下来所有的索引和页码之后用正则表达式处理为所需格式的文本即可(见图1)。

如果pdf格式的电子词典开头或者最后没有索引页,这时就需要用python上网上抓取对应的全部索引,《牛津高阶英语学习者词典英汉双解》第9版的pdf图片版词典就没有相关索引页,这时需要上到对应的在线词典网站:OxfordAd-vancedLearner's Dictionary来写python脚本根据网页的动态变化找规律来抓取该词典的所有的索引(见图2)。

抓好之后下一步是将单词的所有索引跟索引对应的页码联系起来。

2.1.2单词与页码对应的方式

单词与页码对应的方式有很多,但是都需要提前将所有的词典页码的右上角的尾词(或者左上角的首词)先切片,之后ocr得到文本。这一步的目的是通过词典每一页的最后一个词(尾词),来分割单词的所有索引,之后需要做的是调用Excel的vlookup函数,从而达到每一个单词都能对应到相应的页码的目的(见图3)。

具体步骤是:首先将ocr校对后的全部尾词复制到Excel的sheetl中,然后选中B,C,D三列,到名称管理员取名叫index-2,之后切换到sheet2将所有的单词索引复制到其中,再调用Excel的vlookup函数,模糊匹配,就得到了所有单词以及对应的页码。用if函数进行校对,因为有些是一个单词占一页,所以需要if函数校对下。其他方法比如写pyhon脚本通过尾词分割所有单词索引也是可行的,但是效果没有vlookup好。

将所有单词的索引与页码对应好之后,通过正则表达式即可转换为相应格式:词头,即单词索引,内容,即该单词对应的页码图片,以及分割符号,表示该词头和内容已经完整。后期的美化可以通过插入css样式来更改,以及添加高亮索引定位,手机用户端分栏显示等。

制作高亮全索引定位的创新型图片电子词典同样需要用到Excel的if和vlookup等函数,为此我用公式制作了Excel模板,可以直接下拉套用,见图4。

套用好之后,通过正则表达式批量转换成相应的创新型电子词典格式。替换之后打包,即可得到离线图片版词典,这时需要考虑根据屏幕大小提供自适应分屏模式,即图片词典有的一页有左右两栏,有的一页有左中右三栏,对于电脑端,可以直接显示,对于手机端,最好分栏切屏显示。

该分屏功能即可通过css来实现。点击上方蓝色单词横杠,即可跳转到单词在该页码的对应位置,从而实现瞄跳功能,方便使用。其实原理就是在text文本中加入id属性,因为创新型电子词典是支持htm15语言的。手机端的显示见图5:

点击上方蓝色的箭头aback即可跳转到下方aback词条。

2.2 文字版创新型电子词典的制作

文字版创新型电子词典的制作的来源主要是文字版本的电子词典格式比如mobi格式或者epub格式等,通过解压得到txt文档,之后cmd命令合并所有html文本到一个总文本,之后用正则表达式提取出词头和索引的内容,添加分隔符号并且添加css和js引用,打包即可制作得到创新型文字版电子词典。并且之后写正则表达式和pyhon脚本达到全文正查及反查,所以该创新型文字版电子词典是一部真正意义上的全索引级别正查反查词典。什幺是全索引正查反查词典?就是词典内的任何内容全部可反查,不管是短语词头(完整短语提取)、中文解释(中文反查)、英文解释(通过英文解释找英文对应词头,即英文反查)、英文例句(可用于检验自己在英文写作里使用的单词或短语用法是否地道)、中文例句整句以及中文例句中所有关键词查询(即从中文例句里反查对应关键词一例句反查)。下图是下图是由mobi格式的Merriam-Webster' sThird New In-ternational Unabridged Dictionary电子书转换制作为全索引文字版创新型电子词典的手机端以及电脑端见图6:

2.3 关于全索引正查反查系列词典的优势

第一,所有的反查内容带全部context上下文,即无需对反查的内容跳转回原词典进行进一步的研究,所有的相关内容直接显示(例句、例句对应的词头、例句前的中英文解释)。第二,有音标的,反查也会带音标;有发音的,反查也会带发音(包括例句发音,也无需跳转回原词典查看);一句话,所有原词典的内容都可以反查的同时,相关内容直接显示到位,无需跳转回原词典,节约宝贵的英语学习时间;第三,如果实在想跳回原词条,查看原词条内容,可以跳转回原词条内容的准确位置(无需手动翻页到反查内容处;当然前提是原词典内容本身是带锚点的)。第四,全索引例句反查系列词典全部自带了原词典(正查),即原词典中的英文词头可以在本系列词典直接查询,效果等同原词典。

3 英汉类词典的反查制作优势远超过现有所有品牌汉英词典

何为英汉类反查词典?英汉类反查词典是基于英汉双解词典制作。通过输入英汉双解自带的汉语解释词汇,快速查询到权威词典里地道英语怎幺说的查询方式,反查词典类似于汉英词典,但是地道性远超过所有品牌的汉英类词典。反查词典相比汉英品牌词典,地道性、全面性都远远超越传统汉英词典。它的优势有以下几点:

1)权威词典反制而来,英文最地道,不会出现中式英文。

2)中文释义整句保留,语境清晰可见。

3)按词性分类,查找迅速。

4)全部按词频排序,明确告诉你该选用哪个词(常规语境选靠上的,特殊语境找靠下的)。

5)提供同义词群组查找(仅作参考)。

6)极速查询,换行缩进统一规划,让您一目十行。

7)各元素全面提取,各种括号内的说明文字区分一目了然。

8)专业词汇适用语境清晰标出.

9)支持点击跳转,如和原词典在同一群组使用更加如虎添翼,轻轻点击,即可深入原词典学习。

10)数百行代码打造,在你写作、练习口语、翻译等输出的时刻给予强力支持。

11)提取自带汉语词汇相关联的权威品牌词典英文释义与全部汉语释义,更进一步加强对于该词的英文用法的理解。

12)权威品牌词典的例句在释义之后,提供语境,便于学习者理解该词如何使用。

创新型反查类英汉词典的诞生,远远超越了所有的品牌汉英类词典,并且通过检索即可达到全文搜索,功效性、便利性、实用性和权威性都大大提升,并且通过了地道表达,不会出现中式英语,因为是基于英汉双解品牌词典反查制作而成。通过简单的查询几个词条,如:不择手段,即可看出英汉类反查词典的表达远远超过品牌类汉英词典。不择手段在新时代汉英词典中的解释如下:use unscrupulous divisive tactics,中式英文的翻译痕迹十分明显,再看根据上述方式制作的创新型英汉类反查词典的解释:来自韦氏高阶英汉双解的反查词典给出的对应汉语翻译为stop at nothing: used to say that someone will do any-thing to achieve a goal or purpose不择手段;无所顾忌。紧跟着例句she will stop at nothing to get what she wants她为了得到自己想要的会不择手段。反查词典的翻译没有翻译腔,并且匹配英文解释和例句情景表达,为读者提供语境式参考。相比之下创新型英汉类反查词典的优势清晰可见。

4 结论

本文对创新型电子词典进行了研究探索,将传统的词典电子书制作成了可检索的全索引电子词典,并进一步加工,制作成类似全文索引式的词典以及根据英汉品牌类词典做了对应的反查词典,并且对比并发现了反查词典与现有的汉英类词典的优势所在。

参考文献:

[1] Han,Yong.多词库聚合类词典外壳App比较研究[J].辞书研究,2017(6).

[2] Lindemann, David.Bilingual Lexicography and Corpus Meth-ods.The Example of German-Basque as Language Pair[M].So-cial and BehavioraL Sciences,20 13.

[3] Lu。Guohua.网络词典词库配置的主体间性思考——以有道词典为例[J]. China Academic Journal Electronic PublishingHouse.2014.

【通联编辑:朱宝贵】

基金项目:全国大学生创新创业优秀项目成果

作者简介:刘羽丰(1998-),本科在读;王进福(1977-),男,讲师,硕士,通讯作者,毕业于山东大学、挪威奥斯陆大学,青岛大学外国语学院英语教育系副主任,全国大学生创新创业优秀项目指导教师。