大数据下计算机信息数据处理技术浅析

前言：想要写出一篇引人入胜的文章？我们特意为您整理了大数据下计算机信息数据处理技术浅析范文，希望能给你带来灵感和参考，敬请阅读。

大数据下计算机信息数据处理技术浅析

摘要：通过围绕计算机数据信息处理的任务，借助于后台服务器、数据库、存储单元等硬件设施，以及Hadoop文件系统架构、SOA服务体系、HDFS分布式存储等大数据技术，进行计算机数据信息处理系统的建构，提供虚拟机资源调度、分布式数据计算、任务处理等服务，来完成海量化数据资源的搜集、处理与存储。

关键词：大数据；信息数据处理；网络架构

1大数据技术的主要内容概述

当前常用的大数据技术，包括Hadoop文件系统架构、SOA服务体系、HDFS分布式存储等。其中Hadoop分布式数据处理架构，属于大数据云计算系统的平台即服务层，包括Collect（汇总）、Map（映射）、Reduce（归约）等组成部分，主要秉持着先进先出的动态化任务调度理念。针对已搜集的海量化数据信息，利用Map映射函数建立两组数据的映射规则，并向多个主节点、从节点的任务处理需求，动态分配虚拟主机，实现某一数据类型的映射、归约操作。之后SOA服务体系为面向服务的组件模型，通常包含服务工作流、服务接口、服务注册、服务访问和服务查找等组件。该服务架构通过TCP/IP网络通信协议、定义的I/O接口，将某一应用程序的多个功能服务单元进行连接，并将多个分布式的服务组件进行封装，为用户提供需要的Web数据发送与接收、业务处理等的服务[1]。最后，HDFS分布式存储是以分布式形式，对互联网中海量化的数据信息作出存储，主要包括数据资源管理、存储等节点。HDFS的存储单元为每个数据块（block），而数据节点（DataNode）、元数据节点（Namenode）负责数据信息的写入和读出，其中数据块的单个最小存储单位是64Mbits。在HDFS文件系统HDFS框架的中心服务器，收到外部客户端的数据访问请求后，可以通过数据节点、元数据节点对数据访问、目录创建和数据存储等作出控制，实现对不同数据资源的处理与存储。

2大数据计算机信息处理的多层网络架构

基于大数据及云计算技术的计算机信息处理系统，通常为包含基础硬件设备、资源虚拟化硬件、用户与映像管理、SOA服务体系的多层网络架构，不同层级分别负责不同的硬件支持、任务响应、数据处理与存储工作[2]。1）硬件设施资源层。物理资源层为多层网络架构的最底层，包括计算机、后台服务器、数据库、存储器和网络交换机等硬件设备，不同设备之间经由定义的I/O接口进行连接，来为网络资源虚拟化池、虚拟化计算机的建构提供支持。2）资源虚拟化层。资源虚拟化层是依托于后台服务器，对多台计算机主机、数据信息服务硬件等进行虚拟化，该层级存在网络资源池、数据资源池、存储与计算资源池等组成部分。在任务管理中间层收到前端用户，发送的web网络访问、数据处理与存储请求后，会充分借助资源虚拟化层的分布式虚拟硬件，为不同用户任务执行匹配合适的虚拟化硬件资源。3）映像与用户管理层。映像与用户管理层是负责不同数据之间映像、映射规则建立，以及用户权限、任务请求管理的层级。其中用户管理包括用户身份、用户许可、用户请求等的管理模块；映像管理包括映像创建、映像部署、映像库管理和映像周期管理等组成模块，负责对后台服务器端搜集的数据信息，建立起两组数据的映射规则，并作出映像周期的合理控制[3]。4）SOA服务体系层。SOA体系是是一种精确定义接口、松耦合的服务架构，包含服务工作流、服务接口、服务注册、服务访问和服务查找等组件结构。多种服务组件为即插即用的排布方式，也即可以先进行用户安全检查、再作服务处理与管理，也可以按相反顺序执行服务，多种服务执行有明确的接口定义、业务代码。

3计算机数据信息处理涉及到的大数据关键技术

3.1数据挖掘技术

大数据挖掘技术是对网络海量数据资源，进行快速收集、筛选、处理与存取的技术，通常利用关联分析、聚类分析等的数据挖掘算法，对存在关联性的、有价值的数据内容作出挖掘。当前网络数据信息处理中用到的大数据挖掘技术，包含数据获取、数据预处理、数据清洗、数据变换和数据评估等内容，各功能模块分别负责多个数据挖掘步骤的执行。

3.2分布式计算技术

分布式计算为多种Agent技术、Webservice技术等融合的计算技术，其可以通过中间件为不同数据传输与处理、软件应用执行提供支持。在利用分布式计算技术对海量数据信息进行处理过程中，会将复杂的数据处理步骤，分解为若干个小的软件处理任务，再依托于虚拟化计算机硬件资源，多多种数据处理任务分配相应的元数据节点，不同节点负责特定的资源调度、分布式任务执行，因而使用虚拟机进行数据批量处理的效率更高、成本更低。

4大数据技术在计算机数据处理中的应用流程研究

4.1数据采集

大数据技术支持下的数据信息处理系统，包括数据采集、数据读取、数据预处理、虚拟化资源调动、数据分析等的执行流程，其分布式数据处理的组成架构如图1所示。当前局域网络中的计算机数据信息采集，通常涉及经营资本、财务流转、业务执行和人力资源管理等的数据，特别在大量临时文件、数字文档或日志信息采集的过程中，需要先验证信息来源的安全性准确性。基于Hadoop分布式文件系统的数据信息采集模块，主要利用Sqoop、Flume等数据采集工具，进行网络海量化数据资源的采集，再使用SQL语句将现有数据信息，传输至后台服务器、数据库的硬件端口。

4.2数据处理

数据预处理模块通常采取均值法、平滑法等处理方式，对广域网或局域网的网络空间中，存在的错误、冗余度高数据信息作出处理，主动过滤掉带有噪声的、重复性的、空值的数据，对网络数据预处理的计算公式为R=Qq+Ww+Ee。在完成企事业单位的数据信息采集后，可以依托大数据云服务平台的虚拟化资源池，设置设置时间系数Q、负荷系数W、缓存系数E，并设定时间系数Q的A1、A2和A3预设值，以及负荷系数W的B1、B2和B3预设值，缓存系数E的C1、C2和C3预设值。然后根据虚拟化资源池中不同数据处理任务的不同权重，分配预设值q、w和e（q<w﹤e）。将多种数据信息的处理任务代入以上公式，得出海量大数据的与处理结果，并将数据处理的R值与原始预设值r作比较，若R≤r则生成并输出正常的数据处理信号。

4.3虚拟化资源任务调度

整个大数据信息处理过程中的虚拟化资源调度，主要针对不同数据信息的业务处理需求，选择合适的分布式算法、网格算法等模型，在逻辑或物理操作层，向不同任务分配特定的虚拟化节点，进行用户访问管理、数据映射及处理的功能执行。虚拟资源管理、任务分配，主要对虚拟机负载、故障情况进行监测与统计，来保障虚拟资源运行的负载均衡与安全。该任务调度的执行流程为：将m个任务（Task），调度到n个元数据节点进行执行，假定设置单个任务执行时间为TET（TaskExecutionTime），则第i个任务在第j个资源中的执行时间为：CET（i，j）=starttime（j）+TET（i，j）在资源虚拟化硬件中，所有数据信息处理任务执行完成的总时间为：T=min{T1，T2，T3，…，Ti}4.4数据分析数据分析是对挖掘到的数据处理、任务执行结果，进行全方位的价值评估。在映像与用户管理层完成用户身份、权限与网络安全的审查后，由SOA服务体系层发送传输的数据信息处理信号，保证整个数据分析流程的安全稳定性。当后台服务器的虚拟化网络系统，接收到传送的数据信息处理信号后，从虚拟控制器模块读取、提取出某一时间段内的数据信息，存储于后台数据库、模块化存储单元等设备中，以便于不同管理主体对数据的访问、调用和共享。

5结语

大数据资源整合、云服务信息处理时代的到来，使得不同企事业单位都开始利用大数据技术、云计算服务平台，进行内部数据收集与传输、业务处理活动的开展。因此，依托后台服务器、网络云平台的分布式计算技术，大数据云服务系统可针对多种数据信息处理、虚拟计算机运行负载等的任务，进行用户身份验证、数据处理与传输审计的安全管理，以及实时任务执行监测、故障统计，完成多种分布式计算、数据分类存储与管理的工作，以保证系统运行的安全性。

参考文献

[1]罗田琪.大数据时代背景下计算机信息处理技术的分析[J].电子元器件与信息技术，2021（1）：64-65.

[2]熊殿华.基于计算机数据处理接口程序的应用研究[J].西安文理学院学报（自然科学版），2016（4）：31-33.

[3]邱火旺，陈文富.大数据技术的应用难点与问题分析[J].电脑编程技巧与维护，2019（5）：83-84；113.

作者:孙宇轩单位:韶关学院信息工程学院

大数据下计算机信息数据处理技术浅析

相关热门标签

相关文章阅读

相关期刊推荐

数据

大数据

大数据时代

数据通信

电力大数据

精选范文推荐