前言:想要写出一篇引人入胜的文章?我们特意为您整理了石油专业多语种翻译知识库研发范文,希望能给你带来灵感和参考,敬请阅读。
摘要:近年来,新疆油田公司对外交流和国际合作越发频繁,对外合作项目也日益增多,随之而来的外文翻译工作呈明显上升趋势。由于翻译周期短,翻译任务多,许多材料都交给翻译公司承担。但是这些资料的专业性极强,有的翻译公司译文不够专业,质量无法保障,且翻译费用较高,这给对外合作项目带来不便。同时,石油科研技术人员也迫切希望有一个自己的翻译知识库平台,以便辅助阅读相关外文资料,提升技术攻关效率。通过实际需求调研并结合自身的科研实力,新疆油田公司勘探开发研究院决定研发一套属于自己的辅助翻译知识库平台。以此来协助海外项目研究,提升专业人员工作效率、节约开支、锻炼队伍、培养语言人才。
关键词:信息系统应用;翻译平台;辅助翻译
一、前言
目前,市面上石油领域的专业翻译软件较少,俄语翻译软件更是如此,这给专业人员带来了不便。在实际工作中,专业技术人员多使用各自不同的翻译软件,相同的术语往往会有不同的翻译结果,这导致译文专业性不强。一些专业技术人员经过一段时间的积累,收集整理出成百甚至上千条专业词汇,但没有一个好的途径共享给大家进行学习。此外,多年的海外工作过程中,勘探开发研究院积累了许多专业性极强的双语报告,这些资料对年轻翻译人员来说非常难得且极具参考价值,但是由于保密工作需要无法进行大面积传阅,造成了资源浪费。通过调查发现,中石油内部没有统一的石油专业术语库,要解决上述专业资料翻译过程中遇到的问题,就必须建立一套属于自己的术语库和石油专业多语种资料翻译知识平台,以此提高外语翻译的质量。
二、平台设计
(一)总体框架设计
本平台框架由三个应用层组成,最下面是数据层,中间是数据管理层,最上面是用户使用的应用层(图1)。最底层的数据层保存着平台所有英、俄、汉术语、句子和双语报告数据。数据管理层主要负责从底层数据层数据进行相应逻辑处理,然后给上面应用层提供数据和各种数据接口服务。应用层的职责是调用数据层的接口,读取数据并展示给用户。
(二)平台功能建设
近年来,越来越多的ASP. NET开发人员开始接触MVC 架,开始大都认为MVC与ASP. NET完全没有关系,是一个全新 的Web开发,而亊实上MVC是一种更高级架构体系,原来的的ASP. NET称为ASP. NET WebForms,新的MVC称为ASP. NET MVC[1],项目组利用微软的ASP.Net MVC框架作为开发框架、SQL Server和SQLite作为底层数据库、前段UI大量使用BootStrap和各种JS框架来实现快速开发,制定了详细的平台建设及实施方案,经过一年多时间的研发完成了C/S和B/S版本,并在实际应用不断完善,主要功能包括以下5个方面。
1.权限管理模块功能
平台B/S版本的权限模块是基于角色访问控制,只有内部用户才能使用B/S版本,利用这种方式保证了平台数据安全。具体技术上使用了ASP.NET Identity来实现用户登录和权限模块,它为平台提供了一系列接口来管理和维护用户和角色。ASP.NET Identity将用户所有的数据存储在数据库中。ASP.NET Identity使用Entity Framework实现其所有的检索和持久化机制。ASP.NET Identity支持基于声明的身份验证,它使用一组“声明”来表示用户的身份标识,相对于“角色”,“声明”能使开发人员能够更好地描述用户的身份标识。
2.术语、句子查询功能
在平台的术语查询界面上,用户输入关键字后,平台会自动判断用户输入的关键字语种并将相关搜索结果显示在下面的展示栏目,同时进行相应的模糊查询并找出词组展示在词组框里。
3.平台内部分享功能
翻译人员在翻译工作中发现一些术语的新译法时,可以通过平台中“我的词汇”功能来实现平台的内部共享。其他人在查询该术语时可以查看他人分享的内容。
4.多个网络词典统一展示功能
用户在查询某个句子或单词的翻译时,系统首先在本地库里搜索翻译结果,同时也在其它几个网络词典中搜索翻译结果并把结果展示在搜索结果栏,供使用者参考。
5.知识库功能
勘探开发研究院在多年的海外项目工作中产生了很多优秀的双语科研报告。项目组将这些报告按照数据库规则导入到数据库中。用户使用平台进行查询时,系统会根据用户给的关键字从数据库中搜出相应的段落进行展示。这些优秀的双语科研报告对翻译人员准确理解词句提供了很大的帮助。
三、数据库建设
作为一种数据驱动方法,当前的机器翻译髙度依赖平行语料库的规模、质量和领域广度[2]。在数据库建设过程中,为了保证数据质量,首先由项目组对石油专业英俄汉术语进行了收集、整理和分析,然后由石油专业翻译专家结合自身经验对各种纸质词典、网络术语、专业报告中的术语进行比对筛选,挑选出最精炼的术语。这些术语经过专家审核后,再利用编程算法进行了二次整理,确认无误后,正式上传到英俄汉术语库中。为了简化审核工作,项目组单独开发了数据审核模块对所有录入的数据在线进行审核(图2)。此外,在软件研发的同时,团队还建立了一套完整的数据审批流程。科研人员在翻译过程中发现新的双语词语或句子时,可以自行添加到术语库和句子库。经过翻译专家后台审核通过后,该术语将自动加载到平台术语库中。这套流程将不断扩充和丰富知识库,保证知识库数据的正常化。研发人员和石油专业用户共同协作,根据工作要求不断完善平台功能,这也是与其他翻译平台的不同之处。平台数据主要分为三类:术语、句子和双语报告,术语库为最基础库。截止到2021年底,数据库已收录英汉石油专业术语15万余条、俄汉石油专业术语10万余条以及俄汉石油专业句子6.4万余条,俄汉双语报告3.7万余字。
四、平台建设的关键技术
(一) PRR全文搜索技术(PRR:Petroleum Research Report)
在平台建设中,项目组没有使用通用的全文搜索源码,而是通过自主编写代码实现了历史报告的全文搜索功能。在此过程中,为了保证数据安全,将整篇双语报告按段落拆分,并进行加密入库,数据库端使用SQlite保证了数据的查询速度。SQLite数据库是一个开源的嵌人式关系数据库,它在2000年由D.Richard Hipp发布,作为嵌人式数据库,SQlite数据库可以很好地解决大型数据库占用大量资源的问题,它可以有效减少应用程序管理数据的开销,具有移植性好、容易使用、体积小、高效而且可靠等多方面的优点[3]。在进行涉密资料的安全处理时,首先把报告拆分,按段落进行录入。这样搜索关键字时只能拿到一段匹配到的记录,而且也不知道报告的具体内容。由于报告里的数字涉密最多,这些具体数字会被自动替换。同时设置一些涉密关键字,进行自动过滤。最后录入之前请相关人员进行审核,检查是否有涉密的内容。通过这些方法最大程度地保证了数据的安全性。
(二)石油专业语义分析技术
在数据库建设初期,数据库收集了大量的英汉和俄汉术语,在翻译平台中用中文查询外语时效果不太理想。为了解决这个问题,通过研发石油专业语义分析技术,把所有英汉和俄汉词典中的术语进行了优化调整,创建了汉英和汉俄数据库,实现了中文外文的双向查询,提高了汉俄、汉英查询时搜索结果的准确性(图3)。
(三)网络爬虫技术
网络爬虫(又被称为网页蜘蛛,网络机器人)是一种按照一定的规则,自动抓取网页信息的程序或脚本。通过研究网路爬虫技术,项目组掌握了HtmlAgilityPack和xpath解析html文档技术,编写了双语句子爬虫算法,利用算法进行爬虫抓取数据,从网络上成功获取6万多条双语句子。这个技术还可以在后期数据库的术语审核和校对中发挥更好的作用。
(四)在线翻译系统的接口集成技术
在研究海外项目组工作人员的翻译习惯时发现他们中很多人习惯使用一些在线词典。大家常用的在线词典包括有道、yandex、Google、Bing、百度等。通过研究WebService技术,实现了三个常用在线词典的接口集成。用户在知识库里检索文字时,平台首先在知识库里搜索关键字并进行展示,同时把三个在线词典的检索结果展示在同一页面。
五、平台建设成果及先进性对比
(一)平台建设取得的成果
通过一年多时间的开发,平台建设取得了3项主要成果:第一,建立了一套拥有独立知识产权的石油专业翻译服务平台,实现了英、俄、汉专业词汇的在线互查,申报软件著作权2项:《石油专业多语种翻译知识库查询系统》《汉、英、俄石油专业术语词典系统》。第二,建立了中石油首个石油专业领域的英、俄、汉术语库。第三,首次实现石油行业内高质量双语专业科研报告全文搜索服务。翻译人员在工作中发现一些术语的新译法时,可以在平台内部进行收录,实现平台的内部共享。这样用户在翻译相同的术语时,能够查看别人共享的内容,节约翻译时间。经过所有用户长时间的分享积累,术语库将得到不断的扩充。
(二)成果先进性对比
在对外交流的过程中,中石油旗下的很多部门都对翻译工具进行过研究。1995年新疆石油管理局召集相关领域专家和翻译小组出版了汉、英、俄、维石油技术词典,这本词典的参考价值很高,至今仍是俄语翻译人员的主要参考工具。2016年石油出版社也根据自己的需求推出了石油知识翻译的网页版本,提供在线术语翻译。这些翻译工具功能都相对单一,项目组研发的石油专业多语种翻译知识库平台PC版本则是一个功能比较完善、可扩展性较强的应用平台。主要表现在以下3个方面。
1.首个石油专业领域知识库平台
目前在常见的翻译软件中(见表1),石油专业领域知识库较少。我们将翻译知识库平台的术语库功能与国内一个常用的线上词典进行对比。用该词典查询石油专业术语时,一般只能得到通用的释义,无法得到符合科研人员要求的专业释义(图4)。
2.数据库有良好的可扩展性
只有不断改进完善的平台才是好平台。用户需求随着实际工作要求不断变化,石油专业多语种翻译知识库的很多灵活功能都是投入测试以后使用者提出来的,研发人员和石油专业用户共同协作,根据工作要求不断完善平台功能,这也是此平台与其他翻译平台的不同之处。今后,平台会根据石油专业用户的需求推出更多个性化的功能,并进行长期的维护和升级。
3.最大限度地利用了新疆油田独一无二的历史双语报告资源
新疆油田公司勘探开发研究院有许多多年从事石油专业翻译的专家,因此产生了许多宝贵的双语科研报告。该平台的最大亮点还包括科研报告的再利用。因为科研报告的翻译和常规报告有很大不同,所以根据新疆油田公司海外技术服务习惯翻译的内容可以给使用者提供最正确最直接的答案,这也是该平台独一无二的功能(图5)。
六、推广应用
平台开发完成后,桌面版本已经交由新疆油田公司勘探开发研究院中亚研究所和中国石油大学(北京)克拉玛依校区试用。经过近一年的推广实践,翻译平台对相关人员的工作有起到了很大帮助,提高了研究人员对外文资料的理解速度和质量,同时对外文翻译人员提高翻译准确率和效率起到了较大辅助作用。中亚研究所和中国石油大学(北京)克拉玛依校区提供了专门的应用评估反馈。目前市面上的翻译软件基本都是通用的翻译软件,石油行业的专业性不够。勘探开发研究院研发的多语种资料翻译知识库有非常好的俄汉、英汉基础术语库和句子库。行业内专业技术人员会在实际工作中不断使用该平台,平台的专业维护团队也将根据用户需求不断地对数据库进行维护和补充,这样将大幅度提高软件的稳定性和用户粘度。这就是一个商业软件必须具备的条件。图5知识库翻译结果展示图而且,平台的基础框架是自主研发,底层部分的自主研发具有非常好的可移植性,平台的技术条件可以很好地适应安卓和苹果版本,并发布到各手机应用商城,所以完全可以像商业化软件一样移植到安卓和苹果移动手机上,具有一定的商业化价值和市场潜力。
七、结语
通过整合现有的外语翻译人员及科研力量,新疆油田公司勘探开发研究院建立了石油专业多语种资料翻译知识库,提高了外语翻译的质量和时效性,对新疆油田的对外合作事业具有重大的现实意义。该平台对海外工作人员来说是一个全新的应用平台,它区别于通用的翻译词典或软件,既能满足专业研究人员的需要,又能提高专业翻译的速度和效率。在锻炼队伍、培养语言人才和输送人才上起到积极的作用,同时对新疆油田的对外合作事业的发展具有重大的现实意义。
参考文献
[1]黄玉春.MVC框架在ASP.NET中的应用研究与实践[J].商丘师范学院学报,2021(3):15-17.
[2]宋仕振.试论机器翻译与人工翻译的未来关系[J].未来与发展,2019(2):25-30.
[3]张小凤.基于Python的SQLite数据库存储装备维修技术,2020(5):16-17.
作者:曹艺钟 熊维莉 曹菁 库尔班江·托乎提 单位:新疆油田公司勘探开发研究院