前言:想要写出一篇引人入胜的文章?我们特意为您整理了自然语言处理下的微信纳税服务平台范文,希望能给你带来灵感和参考,敬请阅读。
摘要:移动互联网时代,信息种类丰富,获取途径多样,税务信息对专业性和准确性的要求尤为严格。针对由此产生的检索难度上升、检索精准度下降的问题,结合国家税务总局“互联网+税务”行动计划,提出基于主流即时通信软件的纳税服务平台,以人工智能技术辅助税务信息的检索。利用以自然语言处理为核心的智能信息检索技术,对检索人输入文本进行文本提取、特征项提取、利用夹角余弦法进行语义相似度计算并检索输出,实现税务信息的智能问答功能,提供纳税人办税所需的各项税务服务信息。最终实现以纳税人为中心,以实际问题为导向的税务服务,助推税务服务的现代化、信息化、智能化发展。
关键词:微信纳税平台;互联网+税务;自然语言处理;人工智能;智能信息检索;语义相似度计算
引言
税收是国家财政收入的主要来源,随着社会发展,财税体制也进行着不断探索与改革。我国现行增值税、消费税等十余项税种[1],办税指南信息涉及信息报告、发票办理、申报纳税、优惠办理、证明办理、出口退(免)税、国际税收、清税注销、信用评价、权益保护、涉税专业服务等多方面,针对不同纳税主体的不同税务服务信息需求,精准推送报送资料、办理渠道、办理时限、注意事项及相关政策依据等纳税服务信息,简化优化纳税人办税流程,需要特别关注。同时,伴随互联网技术的不断发展成熟,即时通信软件已经成为常见的日常通信手段,根据2017年11月腾讯官方的《2017微信数据报告》,截至当时微信日登录用户已超9亿,较前一年增长[2]17%。庞大的用户基数为基于微信开发的各项服务平台提供了可能,催生出多种产业在互联网时代下新的运营发展模式,充分利用网络资源,构建智能化、一体化的服务平台。而目前,陕西省渭南市国地税税务服务系统主要采用税务服务大厅现场咨询和税务系统官网查询,在税务大厅放置的二维码虽然也可以为纳税人提供在移动端查询获取各自所需的办税信息的渠道,如图1所示,但是,经粗略统计,省税务局“办税指南二维码”上就有110个二维码,纳税人在扫描二维码获取所需税务服务信息时时常会遇到“选择困难症”而无所适从,无法及时高效地获取有效税务服务信息。针对上述情况,本文提出了基于自然语言处理的微信纳税服务平台,通过智能检索实现模糊匹配的自动问答系统,在大大降低了对用户专业性的需求、减少了纳税人大量时间成本的同时,也能针对用户需求,为智能推送定制化的税务服务信息提供依据和渠道,以降低征纳成本、提高税务服务质量、构建智能化税务服务体系。
1自然语言处理
信息的检索本质上是用户的信息检索需求和数据库存储信息之间的匹配过程[3]。随着互联网技术的跨越式发展,综合利用互联网技术、通信技术、数据库技术进行信息的检索得到了广泛关注,如何在海量的多媒体信息中过滤掉无用部分,检索到有用信息,相关检索技术的研究取得了丰硕成果,其中就包含了对于自然语言的处理。自然语言处理就是计算机对人类所使用的口头或书面形式的自然语言进行各种处理、加工的技术,这种技术能够将自然语言翻译为计算机语言,以便计算机更容易地接受和执行人类以自然语言形式输入的指令,是发展人工智能技术的基础[3]。将自然语言处理应用于信息的检索,使得检索技术迈向了智能检索的方向,检索的效率和准确性将得到进一步的提升。智能信息检索的核心在于文本相似度的计算。文本相似度计算主要从分词、去停用词、特征项提取、权值计算、相似度度量等方面着手,以取得更高效、更精确的处理结果[4]。
1.1分词处理
中文区分于英文的最大特点在于中文没有明确的分割符,而是通过字与字之间的不同组合来表达词义,甚至在不同语境中,相同的字词还会表示不同的语义,极大提升了自然语言理解的复杂性。进行分词处理可以将文本优化为更具结构化的表示后再进行后续处理。目前主流的中文分词方法主要有基于字串匹配的分词方法、基于统计的分词方法和基于理解的分词方法[5⁃7]。
1.2去停用词
停用词是指文本中大量出现的但没有实际意义或对句子语义理解作用不大的词,如叹词、连词、冠词等均属其中。停用词对句子语义的贡献非常小,在分词结束后过滤掉这些停用词能够更好地优化算法。
1.3特征项提取
文本的特征项是能够表征文本含义的单元。从特征项的层级来说,由低到高可以分为字、词、短语等。在多数情况下,层级高的特征项能够表述更完整的文本含义,但相对来说,也会对分词等处理提出更高要求。同时,文本的特征表示,能够帮助计算机将自然语言转化为易于计算的特征向量[8],对于计算机处理和理解自然语言有极大简化作用。当前,独热编码(One⁃HotEncoding)、词频⁃逆文件频率(TF⁃IDF)技术[9⁃10]等多种方法都可以应用在文本的特征项提取中。
1.4语义相似度计算
通过特征项提取,文本已经被转化为空间向量表示,文本的语义相似度计算也就被转化为了向量之间的相似度度量。一般向量计算相似度有如下方法:向量内积、欧氏距离、夹角余弦和绝对值距离等[11]。
2微信纳税服务平台
在互联网技术极大发展的时代背景下,开发基于即时通信软件的纳税服务平台是适应更多人使用习惯、合乎信息时展条件下税务服务信息化、智能化发展要求的一项工作。本文提出的基于自然语言处理的微信纳税服务平台的主要功能是提供税务部门与纳税主体之间的税务服务信息交互渠道,以人工智能技术辅导纳税人对所需税务服务信息的智能模糊检索,提供税务业务描述、办理流程、政策依据、办理时限、报送资料、办理地址等信息的自助问答,切入其痛点,也可为未来针对性推送缴税提醒、相关法律法规更新、税务信息查询等服务信息提供渠道和依据,充分利用互联网+的服务模式优势,使纳税人能更方便、快捷、高效地获取税务服务信息。本文提出的基于微信客户端的纳税服务平台的系统体系结构如图2所示。用户提交给纳税服务平台的消息将会首先传递到腾讯服务器,再转发至纳税服务平台的服务器,在服务器接收到请求后,将进行消息格式的解析,根据用户消息内容和设定的服务器逻辑,计算需要返回的消息,再封装经由微信后台转发至用户的微信移动客户端,国家纳税指南Web服务器、陕西省税务服务器作为已有服务器,可以为微信智能纳税服务平台服务器提供Web服务。纳税服务平台进行智能模糊检索时的技术方案如图3所示,主要由微信纳税服务平台界面、文本提取模块、文本特征项提取模块、数据库、语义相似度计算模块和索引模块组成。在特征项提取模块,微信纳税服务平台使用One⁃Hot编码进行特征项的提取,将文本转化为计算机能够理解和处理的二进制编码;而在语义相似度计算模块,微信纳税服务平台使用夹角余弦法计算向量的相似度。索引模块的主要功能就是对计算得到的语义相似度值进行正向排序,将其中相似度值最高的三项作为检索结果顺序输出,若相似度值高于设置的阈值0.8,视为精确检索,将唯一输出此项检索结果,而当相似度值低于所设阈值0.1时,则视为检索失败。微信纳税服务平台的检索结果展示如图4所示。
3结语
当前,经济活动越来越频繁、经济形态越来越复杂,税务服务的模式和手段也必须搭上互联网技术发展的顺风车,进行更专业化、多元化、智能化的转变,仅仅依靠传统方式,提供税务服务的效率和成本都将无法达到信息时代的更高要求。本文提出的基于自然语言处理的微信纳税服务平台是新形势下税务服务智能化的一种尝试,通过智能检索技术与主流即时通信软件的结合,依靠其互联网范围的极大用户基数,对税务服务拓展的深度及广度都大有裨益,形成税务服务发展的新格局。在本文提出的微信服务平台基础上,智能纳税服务平台仍有更深层次的研究需要。目前,文本信息虽然仍是主流,但其他多媒体信息也开始大规模应用于日常生活,将多媒体信息纳入智能检索系统为智能模糊检索提供了新的方向。同时,随着互联网信息安全技术的进一步研究,更多的个人税务信息查询及涉税操作将有望在互联网进行,有效提升税务服务效率,极大减少税务服务的人力及时间成本,加快推进税务服务的智能化进程。
参考文献
[1]刘岩,吴艳华.中国税收[M].长春:东北师范大学出版社,2014.
[2]Anon.2017微信数据报告[EB/OL].[2017⁃12⁃28].
[3]周碧英.基于自然语言的文本智能检索技术研究[D].西安:西北大学,2013.
[4]谭静.基于向量空间模型的文本相似度算法研究[D].成都:西南石油大学,2015.
[5]周俊,郑中华,张炜.基于改进最大匹配算法的中文分词粗分方法[J].计算机工程与应用,2014,50(2):124⁃128.
[6]莫建文,郑阳,首照宇,等.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802⁃1807.
[7]葛锐.汉语分词技术初探[J].软件,2013,34(3):140⁃141.
[8]李晓鹏.文本表示算法的研究和应用[D].北京:北京邮电大学,2016.
[9]宋章浩.中文文本分类中TF⁃IDF方法的改进与应用[J].科技展望,2014(22):259.
[10]贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49⁃52.
[11]李春婷.基于语义相似度的文本聚类算法研究[D].重庆:重庆邮电大学,2017.
[12]邬启为.基于向量空间的文本聚类方法与实现[D].北京:北京交通大学,2014.
作者:李文峰 宗佳佳 唐善成 张镤月 李大娟 陈熊熊 单位:西安科技大学