公务员期刊网 论文中心 正文

有线电视网络运营商平台建设研究

前言:想要写出一篇引人入胜的文章?我们特意为您整理了有线电视网络运营商平台建设研究范文,希望能给你带来灵感和参考,敬请阅读。

有线电视网络运营商平台建设研究

【摘要】根据企业实际业务需求,梳理大数据平台所需具备的能力以及具体建设目标,按照满足海量数据存储、高性能计算、应用丰富等企业级大数据平台能力要求,从数据采集与预处理、计算与存储、平台运维和管理等方面构建企业级大数据平台的功能架构及其配套的硬件架构,为建设企业级大数据平台提供参考。

【关键词】大数据;数据平台;系统架构;数据管理

0前言

江苏省广电有线信息网络股份有限公司(以下简称江苏有线)通过这些年的信息化发展,各个业务领域都构建了完善的信息系统支撑,沉淀了巨大的数据资源。数据资源不仅涉及业务受理信息、行为日志等结构化数据,还包括图片、音频、视频等非结构化数据。从数据质量来说,这些数据涵盖了全业务、全用户和全渠道,信息完整度较好。如何充分利用这些蕴含巨大价值的数据资源,反哺于各个业务领域,使之成为推动业务发展、提升市场竞争能力的强大推动力,是当前迫切需要解决的问题。通过一段时间的探索,江苏有线大数据资源的开发利用和数据价值的呈现已初见成效,但面对日益增长的业务发展趋势,以及快速的响应市场能力的需求,传统的数据仓库和经营分析系统不足以支撑未来业务应用的价值化数据需求。主要表现在多个子系统的数据资源未进行融合、开发和利用,从而使数据价值的挖掘和利用受到了限制;传统的数据系统平台架构扩展性难以满足业务应用发展的需求。因此,需要基于主流大数据平台框架,构建汇聚业务、终端、用户收视行为、消费习惯、客户服务等多维度的数据分析平台,遵循行业内统一的数据处理技术,管理等相关标准,提供融合数据存储、统一数据访问等跨平台的数据能力,通过数据资源的开发和利用,实现价值的发掘。

1企业级大数据平台的建设目标

企业级大数据平台作为江苏有线唯一、统一的数据采集、处理、服务和运营的平台,按照统一汇聚、统一存储、集中计算、集中管控的原则,形成总公司及各分公司“多节点”“网状网”形态的数据和服务共享能力,实现数据集中化、能力化、资产化的目标。具体建设目标如下:1)建立江苏有线统一数据中心。实现企业内外全网型数据、跨域数据的采集和整合,搭建可管、可控、可用的数据管理和运营体系。对内是数据化经营决策的唯一依据,对外是数据变现经营的唯一载体。2)海量数据的安全存储。实现江苏有线PB级客户、业务、网络、行为等结构化和非结构化海量数据的存储,实现数据安全备份、历史明细数据随查随用、扩容灵活不停机、扩容成本低廉的目标。3)高性能数据计算处理能力。具备离线批量处理、准实时处理、内存处理和交互式探索等多种计算能力,实现高并发下PB级数据的高效处理和应用。有效提升各类经营指标、统计报表的数据处理效率(月度数据任务处理时间不超过6h),支撑江苏有线全省经营工作,各分公司、子公司数据化运营的高效开展。4)丰富的数据应用中心。具备海量数据挖掘、灵活的数据可视化/交互能力,打造实时查询、业务预测、精准营销等数据应用,把数据应用能力下放至一线人员使用,快速有效各分公司、子公司和业务单位在市场经营决策、节目采购编排、收视率分析、产品设计分析、一线精确化营维工作的开展。5)大数据能力开放体系。以数据开放方式实现数据能力输出、数据服务共享。对内作为数据中心向其他各类系统输送统一标准的数据或者平台的计算和存储资源;对外是江苏有线数据资产变现经营的统一数据资源。6)建立数据资产运营体系。建立一体化的数据管控和数据资产运营管理体系,包括数据统一规划、统一定义、安全管控、运营模式、运营平台等,实现企业数据的有效治理和运营。

2企业级大数据平台功能架构

企业级大数据平台采用分层架构设计,充分体现协同一体、敏捷高效、智能精准、开放共享的愿景,以及“小前台、大中台、厚后台”的原则要求,大数据平台核心部分为PaaS平台,大数据基础平台功能架构包括数据采集与预处理、计算与存储、平台运维和管理。大数据平台功能架构如图1所示。

2.1数据采集与预处理

为批量数据采集、流式采集、数据预处理、数据分发、数据同步/加载提供底层技术支撑[1]:1)批量数据采集。基于x86服务器集群,使用FTP、SFTP、HTTP、Sqoop、DataX等协议或技术,实现结构化、半结构化、非结构化数据批量离线数据采集。2)流式采集。基于x86服务器集群,使用SDTP消息、Kafka消息中间件、Flume等开源技术,将数据按照消息、文件、数据库适配等方式进行数据接入。3)数据同步/加载。支撑PB级数据同步的同步,加载目标包括结构化与非结构化多种DB/DW(如Hive、Oracle、DB2、MPP数据库、MySQL数据库)。

2.2计算与存储

计算与存储包括数据存储、批量计算、实时计算、Redis内存存储[2]:1)数据存储。负责存储数据采集层发送过来的数据、数据计算/分析结果的数据,数据根据业务应用场景可存储在适用的存储服务器上,如传统关系型数据库、Nosql、MPP、HDFS等。使用HDFS/Hbase/Redis/GreenPlum/MySQL/DB2等技术构建海量数据存储能力。2)批量计算。负责数据收集过程中的批量处理,形成不同数据组织的基础数据资产,完成基础数据准备工作。并能够支持不同分布式计算框架的数据分析工作,使用MapReduce、Hive、Spark、SparkSQL、Impala、Kylin、Mahout、SparkR开源技术构建批量数据加工处理及数据挖掘能力。3)实时计算。基于x86服务器集群,使用Spark-Streaming、Redis、Hbase、Kafka等开源技术,负责实时性要求高的数据加工处理。4)Redis内存存储。基于x86服务器集群,构建Redis内存存储集群,实现实时访问要求高的用户行为数据、实时位置数据、实时集团上报数据等各类实时计算结果数据存储,并打通Redis与实时计算引擎、Hadoop、RDB、MPP无缝衔接及交互能力。

2.3平台运维与管理

1)通过界面进行向导式的部署平台组件,可视化对HDFS、Hbase、Hive、Spark等Hadoop生态进行部署和完成相关的配置。2)采用可视化的图表指标方式,监控Hadoop组件、主机CPU、磁盘I/O、网络I/O等硬件指标。3)具备完善的日志抓取和下载能力。在统一的企业级管理界面,可以查看平台所有主机运行日志的详情,并且可以在大数据平台界面进行日志的浏览或者下载,方便运维人员对问题进行定位。

3企业级大数据平台

硬件架构企业级大数据平台硬件架构由数据管理平台、能力服务平台、数据计算中心和展现平台等4部分组成[3]。其中数据计算中心是整个系统的核心,用来部署Hadoop集群和关系型数据库。数据管理平台、能力服务平台和展现平台对应不同的应用部署。外部各业务系统通过核心交换机接入Hadoop集群交互通信。数据生产集群与数据理平台、能力服务平台部署分离,将生产与管理影响降到最小。生产中心主节点、计算节点等各类节点在同一个集群内,提升节点间通信效率。企业级大数据平台硬件架构如图2所示。为满足企业级大数据平台的数据计算并发能力,完成对历史数据的迁移及新数据的存储,经测算按照30%的能力冗余。企业级大数据平台的硬件配置如表1所示。

4企业级大数据平台应用

4.1企业级大数据平台集群监控

通过AmbariDashboard页面展示集群的整体情况,可以点击各个图表查看具体信息。服务级别监控管理包括HDFS、MapReduce、Storm、Spark等,通过左边导航点击对应的服务,可以查看该服务的使用情况。Heatmaps展示了服务各个角色使用磁盘I/O、网卡I/O、CPU以及JVM等性能状况。企业级大数据平台集群监测如图3所示。

4.2平台任务开发与调度管理

通过企业级大数据平台数据中台工具实现便捷式数据可视化开发,即开发流程采用直观、可视的方式,从布局设计、数据源配置到组件配置及开发效果全过程均可查看。主要包括元数据管理、数据采集、数据稽核、数据标准制定、数据加工、数据分发、业务流程管理、接口管理、调度一体化等工具。其中,调度监控可以实时呈现平台JOB执行情况,且对于执行失败的JOB可以进行查看日志、重做当前、重做后续等操作。企业级大数据平台数据任务执行情况监控如图4所示。

5结语

综上所述,通过企业级大数据平台的建设,实现企业内外全网型数据、跨域数据的采集和整合,搭建可管、可控、可用的数据管理和运营平台。快速有效支撑管理层与业务部门在经营管理、市场经营决策、数据化运营、产品设计分析、一线精确化营维等工作的开展。

参考文献

[1]曹逸知.大数据的发展与技术应用[J].通讯世界,2019(1):51—52.

[2]范家宁.基于Spark的多数据源大数据治理平台研究[D].北京:中国地质大学(北京),2020.

[3]刘盛学.电信大数据探索平台关键技术及其实现研究[D].长沙:湖南大学,2018.

作者:丁云强 单位:江苏省广电有线信息网络股份有限公司

相关热门标签