前言:想要写出一篇引人入胜的文章?我们特意为您整理了可视化技术下的市场监管大数据分析系统范文,希望能给你带来灵感和参考,敬请阅读。
摘要:为提高机构改革期间市场监管部门工作效率,本文提出了一种基于可视化技术的市场监管大数据分析系统。系统将源自多个部门的数据进行清洗后存入数据仓库,通过J2EE平台调用数据分析模型对数据进行分析,并通过可视化工具以图、表等形式对结果进行可视化输出。实用结果表明,该系统提供了有效的决策参考,提高了市场监管干部的工作效率。
关键词:大数据;可视化;数据仓库;市场监管
引言
运用大数据技术来加强对市场主体的服务和监管,是促进政府职能转变、简政放权和优化服务的有效手段,也是近年来的发展趋势[1]。国务院办公厅的《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》中要求,各级政府部门都要充分认识运用大数据技术加强对市场主体服务和监管的重要性,通过运用大数据技术来提高对市场主体的服务水平、加强和改进新形势下的市场监管能力,并以此为动力推进政府和社会信息资源的开放和共享,提高政府部门运用大数据技术的水平。为了进一步加强和改进市场监管方法,提升市场监管部门的市场主体服务能力,顺应大数据时代潮流,运用大数据技术加强对市场主体的服务和监管,促进政府职能转变,做好简政放权和优化服务,在现有软硬件资源的基础上,整合原工商、质监、食药监、物价、知识产权等相关部门各个业务系统的数据,建设基于可视化技术的市场监管大数据分析系统。基于可视化技术的市场监管大数据分析系统由数据仓库、大数据分析软件及相关软硬件设备组成。
1系统架构
系统采用松耦合、高聚合、多层次和面向服务的体系结构,坚持功能实用、接口规范和高响应时效的原则,采用J2EE架构和多服务器、虚拟化和集群化的部署方式。支持Oracle、mysql、SqlServer、DB2等主流数据库,支持Hadoop分布式系统基础架构。采用了兼容性较好的B/S模式,并结合当前科技创新工作的要求,支持Linux系统客户端下的火狐、谷歌等主流浏览器。系统的基本架构如图1所示。系统的数据源来自原工商、质监、食药监、物价、知识产权等多个部门不同厂家、不同版本的业务软件,经过数据清洗模块对各部门的数据进行整理、清洗,存入数据仓库。J2EE平台调用数据分析模型接口对数据仓库中的数据进行分析,并通过可视化工具以图、表等形式对结果进行可视化输出。
2数据预处理
由于数据源所在的数据产生部门、数据库厂商和版本各不相同,数据库中表结构的差异较大,必须先对从各数据源中抽取的数据进行预处理,将清洗整理过的数据存储到数据仓库中,才能把数据完整、有效地提供给数据分析模块进行分析,并对分析产生的结果进行可视化输出。
2.1源数据抽取针对多部门不同的数据库系统,都开发了相应的数据库接口进行数据抽取,对于未采用数据库进行存储的数据,则通过从软件用户端界面手动导入的方法进行抽取。抽取到的源数据保存在前置数据库中。前置数据库提供了自定义表结构功能,用户可通过数据导入模块自行定义表结构和数据表中的字段属性,以便灵活导入未经过事先定义的数据。以市场监管工作中的反不正当竞争监管数据为例,通过数据抽取模块将行政执法的基本数据(案件号,案件名称,当事人,案值,处罚金额,立案时间等)导入系统后,系统将数据自动转化并存储至前置库的数据表中,数据表中相关字段的属性自动根据导入的字段类型进行判断,若表中部分字段内容缺失,系统先以默认值填充,待数据清洗时进一步处理。前置库中的行政执法信息数据如表1所示。
2.2数据清洗
数据清洗是对前置库中的数据进行校验和审查的过程[2]。数据清洗的目的是删除前置库中的重复信息、纠正错误数据,并将字段值的单位进行统一[3-6]。来自各部门的历史数据往往存在数据重复、无效值、空值等实际情况,需要对其进行数据清洗后再存储到数据仓库中以供进一步分析展示使用。对源数据的数据清洗主要采用以下方法进行。对源数据中属性值均相等的数据视为重复信息,将其进行合并处理,只保留一条重复的数据。对源数据中的存在空值的不完整信息,若某个属性存在的空值过多,且该属性对所展示的问题不是特别重要,则删除该属性;若该属性仅存在少量空值,则判断该属性与其它属性间的相关性,存在相关性的根据其他属性的值和相关规则推测该属性的值,无法推测的保留空值。若处理后的某条数据存在的空值仍然过多,则将此条数据删除,否则保留此条数据并保留空值。对源数据中日期等格式不规范的数据进行格式转换,将不同的数据格式转换成统一格式。清洗后的数据存储在数据仓库中,供数据分析模型和可视化工具读取并产生可视化分析结果。
3基于可视化技术的大数据分析系统
利用数据可视化工具,开发市场监管大数据可视化平台,将处理过的市场监管数据以多种类型的图、表等形式直观地展现出来,并对展现出来的信息进行标注、解析、汇总和分析,系统能直观的显示出市场主体的基本概况、发展趋势、风险预警等信息。
3.1数据可视化技术
数据可视化技术是通过算法和工具对多维的信息空间进行定量的处理和计算,将大型数据集中的数据处理后以图形图像形式表示出来,从而将数据中隐藏的信息直观地展现给用户[7-9]。目前数据可视化技术已经提出了多种方法,根据原理的不同可以划分为面向像素的技术、基于几何的技术、基于图像的技术、基于图标的技术、基于层次的技术和分布式技术等[10-12]。
3.2市场监管大数据分析系统
市场监管大数据分析系统运用大数据技术来提高市场监管部门的公共服务能力,对市场主体事中后监管数据进行高效的采集和整合。系统利用市场监管大数据,制定规范了市场监管大数据标准体系,将大数据分析结果作为提高市场监管治理能力重要手段,不断提高服务和监管的针对性和有效性。市场监管大数据分析系统主要包括数据仓库平台及分析展示平台两大部分。数据仓库平台将原有各单位业务软件中的数据进行抽取,进行清洗及格式转换后存储在数据仓库中;大数据分析展示平台将数据仓库中的数据通过建模,以可视化的方式将结果展示给市场监管人员,提高市场监管部门的公共服务能力和事中事后监管水平。数据分析平台包括综合查询、业务分析、风险预警、决策支持、综合分析等主要功能模块及年报监控、统计报表等辅助功能模块。系统的主要功能模块如图2所示。其中,大数据分析工具主要采用集成了报表引擎、全文检索引擎、多维分析引擎、数据挖掘引擎及数据可视化组件中的BI工具实现。通过数据可视化BI组件,为用户提供应用层各功能模块的分析结果可视化输出,实现了市场主体分析的GIS热力图、放射性树状图、标签云等各类图形和报表输出等功能。
4系统实用效果
市场监管大数据分析系统通过对数据仓库中登记注册、信用监督、特种设备、食品药品安全、知识产权等几大数据源的数据进行抽取、清洗等预处理,将预处理后的数据进行挖掘分析,并对结果以图、表等可视化方式输出,效果简洁直观。市场监管大数据分析系统的每个模块根据业务种类划分子模块,每个子模块均支持多种方式的可视化输出,为市场监管人员提供决策支持。系统可对各类数据进行分析统计,形成特定的图表,可通过自定义条件对分析数据进行筛选,点击图表上的相关内容可向下一级进行钻取,查看下一级的分析图表。图3是上年各月度行政执法立案和处罚数趋势图。由图3中可以看出,上一年第二季度的行政执法立案数和处罚数较多;前三季度行政执法立案数和处罚数基本呈现正相关联系,而第四季度由于市场监管政策变化,行政执法处罚数出现明显下降;2月份由于传统假期,行政执法立案数和处罚数都明显较少。图4是市场主体分布情况的GIS热力图显示,根据市场主体的分布密度不同显示出不同的颜色。市场主体的分布密度越大,GIS热力图中的颜色就越深,市场主体分布密度小的区域颜色越浅。由图4可以看出,滨湖区和新吴区的市场主体分布密度较大,主要原因是这两个区的高新科技产业园较多,市场主体主要集中在产业园及其周边;对郊区而言,工业集中区及其周边的颜色较深,传统农业乡镇的热力图颜色较浅,结果符合该市城乡发展的实际情况。
5结束语
随着市场监管部门机构改革的推进,如何将分属多个部门多个系统的数据有效整合并分析运用成为急需解决的问题。通过基于数据可视化技术的市场监管大数据分析系统,将松散的数据进行整合和清洗,并进行有效的分析和可视化输出。经过市场监管部门的实际使用,系统中的综合查询、业务分析、风险预警、决策支持等功能模块有效提高了市场监管干部的工作效率,为新时期的市场监管工作提供了直观的决策参考。
参考文献:
[1]张维维.基于大数据的市场主体监管体系建设[J].信息技术,2016(5):187-190.
[2]李蕾.大数据环境下相似重复记录数据清洗关键技术研究[D].南京:南京邮电大学,2019.
[5]蔡钟杰,雷斌,张伟.关于重复记录数据清理算法研究[J].信息技术与信息化,2013(4):32-34+40.
[6]张荃,陈晖.基于最小哈希的重复数据清洗方法[J].通信技术,2019,52(11):2653-2658.
[7]徐永顺.基于意象图式的多域异构数据可视化设计研究[D].无锡:江南大学,2019.
[8]李明灏,潘刚.博物馆馆藏文物数据可视化分析[J].计算机与数字工程,2019,47(11):2850-2855.
[9]李磊,鲁兴河,康警予,等.一种基于知识图谱的数据检索与可视化方法[J].计算机与网络,2020,46(5):61-64.
[10]梅鸿辉,陈海东,肇昕,等.一种全球尺度三维大气数据可视化系统[J].软件学报,2016,27(5):1140-1150.
[11]曾悠.大数据时代背景下的数据可视化概念研究[D].杭州:浙江大学,2014.
[12]何兆成,周亚强,余志.基于数据可视化的区域交通状态特征评价方法[J].交通运输工程学报,2016,16(1):133-140.
作者:羊斌 宁丽 单位:无锡市市场监督管理局