解决计划 > 大奖18dj18游戏平台大数据平台

基于云与大数据的解决计划资助企业胜利转型


1平台概述

目今数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,关于海量数据的运用将预示着新一波生产率增长和社会各行业革新的到来,在全球已经全面进入信息时代的今天,据IDC预测,全球大数据市场规模有望在2017年达530亿美元,并在未来几年内依然坚持30%以上的年复合增长率。
大数据机主要针对国家面向大型企业应用的共性云计算基础平台研制,基于散布式算法、数据管理技术,提高大数据挖掘与智能效劳的能力。大数据机的研制契合国家信息平安政策导向,从CPU芯片、效劳器系统设计和制造到操作系统、共性支撑软件、虚拟化技术和系统集群实现了实现了全栈式、一体化数据治理支撑。

图1 国产大数据平台
WFCloud大数据平台处于系统的平台效劳层,是龙芯、申威、飞扬等处理器平台上定制开发的大数据处理软件,在大数据机集群上,通过虚拟化为大数据处理提供资源池,形大奖18dj18游戏平台数据处理集群,软件在集群上进行了充分的适配和优化,将检索盘问、图算、机器学习、数据挖掘、实时数据处理等模型统一到一个基础平台下,并以一致的接口API公开,提供各类业务应用信息引接,多源数据处理的大数据平台效劳,并能提供各类大数据处理、剖析工具,对各类业务信息、多源数据做剖析、提取,为辅助决策系统提供有效支撑。

2 平台设计

WFCloud大数据平台主要解决散布式存储和计算底层实现,采用散布式集群做底层实现,利用散布式文件系统存储数据,利用散布式计算实现大数据的任务处理,辅助使用内存计算解决散布式计算写文件系统带来的速度问题。对上通过提供各类数据存储、计算以及挖掘接口,提供业务效劳计算和数据支撑,在具备海量数据的情况下可以专注业务开发而无需关心底层数据组织方法,尤其是现有的一些基于Hadoop、HBase、Hive的顺序可以更加简单的迁移到龙芯、申威、飞扬等处理器架构效劳器系统

2.1 平台架构

WFCloud大数据平台搭建在龙芯、申威、飞扬等处理器架构效劳器上,在效劳器上做了大宗适配和优化,并根据硬件特点进行架构重写,满足大数据使用需求。其中主要针对大数据软件的可靠性、性能调优等方面着重进行了优化和提升。大数据平台在实际生产环境中尽可能的对所有软件都提供主从双机的HA形式,采用主备或负荷分担配置,有效避免单点故障场景对系统可靠性的影响。提供大数据软件的自动化安排工具,实现一键式装置顺序和一键式集群控制功能。大数据平台软件架构如下图所示。
图2 大数据平台软件架构

2.2.核心组件

2.2.1 WFCloud大数据基础平台

WFCloud大数据基础平台基于开源大数据架构Apache Hadoop构建,可构建在龙芯、申威、飞扬等处理器架构效劳器之上,基于HDFS构建散布式文件系统实现海量存储,基于MapReduce框架实现散布式并行处理,结合主从备份架构实现系统高可用,为大数据处理系统提供散布式计算和散布式存储能力,为上层数据库系统和其他应用系统提供平台支撑。
3 散布式存储架构
散布式存储是一个主/从(Master/Slave)体系结构,如上图所示。由于散布式存储的性质,存储集群拥有主备控制节点和若干数据节点。控制节点管理文件系统的元数据,数据节点则存储实际的数据。客户端通过与控制节点和数据节点的交互拜访文件系统。客户端联系控制节点以获取文件的元数据,而真正的文件I/O操作是直接和数据节点进行交互的。
WFCloud大数据基础平台通过冗余备份、副本存放、心跳检测、平安模式、数据完整性检测、空间回收、元数据磁盘失效和快照等办法可以有效包管散布式文件系统的可靠性。平台采用Yarn作为资源管理系统,可以为各类应用顺序进行资源管理和调理。基于龙芯、申威、飞扬等处理器平台优化的MapReduce框架提供快速并行处理大宗数据的能力,作为散布式数据处理模式以及执行环境。
WFCloud大数据基础平台针对差别的应用场景和差别的应用偏重点,如存储、离线计算、散布式计算等偏向,能够有针对性地对配置进行优化,具备高度的可定制性和扩展性。

2.2.2 WFCloud大数据内存计算框架

WFCloud大数据内存计算框架是基于开源框架Apache Spark构建,针对龙芯、申威、飞扬等处理器平台将其相关的集群软件、监控软件进行了重新定制开发。Spark是一个围绕速度、易用性和繁杂构建的大数据处理框架。它提供了一个全面、统一的框架用于管理各种有着差别性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。Spark使用了内存内运算技术,能在数据尚未写入硬盘时即在内存内剖析运算。Spark项目主要由RDDs(弹性散布式数据集)、Spark SQL、Spark Streaming、Spark MLib和Spark GraphX这几个要素组成。
WFCloud大数据内存计算框架的特点如下:
● 支持散布式内存计算
● 支持迭代式的计算
● 兼容Hadoop系统文件读写方法
● 计算过程容错
● 支持多种语言开发应用(Scala/Java/Python)
● 计算能力线性扩展
WFCloud大数据内存计算框架是基于内存的迭代计算框架(如图4所示),适用于需要多次操作特定命据集的应用场合,如机器学习,图挖掘算法以及交互式数据挖掘算法等。在计算过程中需要重复操作的次数越多,所需读取的数据量越大,受益越大,数据量小可是计算密度较大的场合,受益则相对较小。由于弹性数据集的特性,不适用于异步细粒度更新状态的应用,例如Web应用效劳的数据存储。

图4 内存计算架构图
WFCloud大数据内存计算框架中计算的数据可以来自多个数据源,如Local File、HDFS等。WFCloud云计算平台使用HDFS作为其底层数据存储,用户能够快速的从MapReduce切换到WFCloud大数据内存计算框架,可以一次读取大规模的数据进行并行计算。在计算完成后,将计算结果存储到HDFS中,WFCloud大数据内存计算框架可以提供比MapReduce高10到100倍的性能。WFCloud大数据内存计算框架作为计算引擎,还支持小批量流式处理、离线批处理、SQL盘问、数据挖掘,避免用户在这几类差别的系统中加载同一份数据带来的存储和性能上的开销。
在龙芯、申威、飞扬等效劳器与X86设备性能保存差别的情况下,采用内存计算框架能在一定水平上弥补MapReduce在执行性能上的缺陷,如中间结果输出、数据格式和内存散布、执行战略以及任务调理的开销等方面的提升。

2.2.3 WFCloud大数据库系统

各类型军事信息系统中,数据库支撑了各种类型数据的存储、盘问和统计剖析等功能,但随着一些特定类型数据的数据量的时时增长,如传感器、目标轨迹和日志信息数据等,已抵达普通数据库存储和拜访的极限,NoSQL数据库拜访性能和存储拓展性方面的优越性成为解决问题的关键。关系型数据库不再是唯一选择,数据库领域正进入混合长期化时代,即采用多种数据库解决计划,并使用差别数据存储模型,这种解决数据长期化存储问题的混合方法逐渐被采用。
WFCloud大数据库系统(WFBase)基于开源数据库Apache HBase构建,是高可靠、高性能、面向列、可伸缩的散布式数据库,能够提供海量数据的存储功能,大致架构如图5所示。大数据数据库基于One Rule Them All设计思想,用于处理半结构化和非结构化数据的存储和检索,为业务系统,数据货仓构建和数据挖掘提供数据库级数据存储和检索,便当应用开发。系统紧密结合龙芯、申威、飞扬等效劳器特性,充分发挥了硬件性能,提升了数据库系统的整体性能。


图5 WFBase架构
WFBase利用HDFS作为其文件存储系统,除了WFBase爆发的一些日志文件,WFBase中的所有数据文件都可以存储在HDFS文件系统上。HDFS为WFBase提供了高可靠性的底层存储支持。
WFBase适合于存储大表数据(表的规模可以抵达数十亿行以及数百万列),并且对大表数据的读、写拜访可以抵达实时级别,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。WFBase利用ZooKeeper作为协同效劳,可使用WFCloud大数据内存计算框架和MapReduce来处理WFBase中的海量数据。

2.2.4 WFCloud大数据货仓

WFCloud大数据货仓基于开源数据货仓Apache Hive构建,主要提供类似SQL的语言操作结构化数据存储效劳和基本的数据剖析效劳。WFCloud大数据货仓为单实例的效劳进程,提供效劳的原理是将WQL编译解析成相应的MapReduce或者HDFS任务。
WFCloud大数据货仓作为一个基于HDFS和MapReduce架构的数据货仓(如图6所示),其主要能力是通过对WQL(WFCloud Query Language)编译和解析,生成并执行相应的MapReduce任务或者HDFS操作。
WFCloud大数据货仓主要特点如下:

图6 数据货仓架构图
WFCloud大数据货仓包括如下相关组件:

3 案例

3.1 信息效劳中心大数据融合平台

大数据融合平台安排在网络上,主要为海量多源异构数据提供实时入库、实时检索、实时剖析等功能。同时提供散布式数据处理平台,具备流数据处理和数据挖掘能力。大数据融合平台数据处理层结构如下图所示:
7信息中心大数据融合平台框架
大数据融合平台基于散布式文件系统构建,集成Hadoop散布式计算平台,支持古板MapReduce和内存计算的散布式计算架构,具有超强的散布式计算能力,能支持从TB级乃至PB级数据的快捷、高效处理。
大数据融合平台的核心为数据库系统,主要解决海量数据存储与海量数据高速检索两个问题。大数据融合平台基于SQL on Hadoop自主研制大数据数据库系统,解决结构化和非结构化数据存储,对入口数据进行实时索引,对数据进行剖析、支解、提取后将其存储在大数据数据库系统。同时紧密结合硬件平台,基于平台进行优化,充分发挥硬件性能,提升数据库性能。
数据处理层支持实时处理、流处理、图算以及数据挖掘,数据挖掘可以基于数据库中数据进行检索,处理和建模,支持数据的深度挖掘和商业智能剖析。

3.2 目标区气象包管系统

目标区气象包管系统是用于包管挫折目标区域环境判定的专用系统。专用气象包管系统近17个子系统,由信息接收处理、精细化预报预警、决策支持、包管应用和业务支撑平分系统组成,各分系统的后台处理单位采用龙芯、申威、飞扬等效劳器设备。
气象数据是一类十分典范的非结构化数据,在实际应用中其日增量达数十TB。为满足该项目需求,建立一个集成各类应用效劳、数据预处理、实时存储、快速检索、智能剖析以及二、三维可视化展示为一体的气象包管大数据处理平台。
气象包管系统软件框架如图所示:

8气象包管大数据平台应用拓扑
数据存储层是业务的重要局部,其中内存存储采用内存数据库Redis进行集群搭建,对需要实时处理的数据进行有效快速处理;长期化存储采用古板达梦数据库集群搭建,对需要长期化的数据进行存贮藏份,起到平安防护作用;散布式文件存储采用MongoDB数据库进行集群搭建,对非关系型数据进行快速有效存储,供多用户进行实时拜访;近线存储由WFBase集群搭建,主要用于存储拜访量不大且拜访性能较高的应用,同时要求设备具有相当大的存储容量和灵活的集群伸缩性。
平台效劳层为业务应用提供基础效劳及系统平台,主要包括云计算大数据平台及二、三维地舆信息系统平台。数据效劳层针对具体应用可进行弹性插件式扩展。数据处理效劳包括数据分发、数据接收两局部。
业务可视化层是为用户提供数据剖析、推演的展示单位,通过终端可对气象数据实时剖析和效劳监控。
整个气象包管系统核心数据存储和处理局部主要利用WFCloud大数据平台构建,实现系统的国产化的同时包管了系统处理性能。

3.3某数据中心建设

该项目以申威大数据机和睿思操作系统为基础平台,提供虚拟化和大数据处理技术,完成海量非结构化数据的存储和检索平台的搭建。为上层古板数据库应用、数据挖掘应用、数据可视化提供底层支撑。
散布式处理平台构建在申威大数据机集群上,利用神威虚拟化技术扩充集群规模,采用散布式文件系统实现散布式存储,利用散布式计算和Map Reduce设计实现散布式计算框架,结合主从备份架构实现系统高可用,为神威大数据处理系统提供散布式计算和存储能力,具体软件架构如图所示。

9 数据中心软件架构图
项目具体实施分为以下几步:
1)申威平台下的散布式处理平台的移植和优化;
2)利用WFCloud大数据平台构建散布式处理平台系统、WFBase数据库的具体实施、测试;
3)大数据平台搭建后,和神通数据库进行交互使用。提供相关数据挖掘和检索接口,提供基础平台应用系统移植支撑,提供数据交互模块接口;
4)与神通数据库共同完成数据库测试工作。
5)与南大通用共同完成GBase8A数据库测试工作。

3.4某学院申威大数据平台建设

该项目打造以申威大数据机和睿思操作系统为基础平台,虚拟化和大数据处理技术为核心支撑的国防大数据信息融合平台。
国防作为对平安要求极高的行业,对龙芯、飞扬、申威等基础软硬件尤为青睐。申威大数据一体化解决计划,从硬件、操作系统、大数据软件、虚拟化软件、应用接口几阵势部均采用自研技术,并融合平安中间件和平安数据库,为国防大数据建设新型信息化融合平台。
为满足某学院信息融合中心的信息化研制需求,需完成基础环境、平台应用以及系统效劳三个目标的建设工作。其中,平台应用层中核心应用支撑环境是较为重要的环节之一,包括对基础库、基础中间件、基础开发运行环境、基础开发驱动等系统软件的融合搭建。WFCloud大数据基础平台、WFCloud大数据内存计算框架以及WFBase系统基于软硬件基础环境(申威效劳器)进行建立。结合国内化先进的云计算大数据架构、技术,通过源码重构、软件架构重构,形成了申威大数据平台架构,大致如图所示。

10 申威大数据平台架构
操作系统依赖于硬件平台,但又有其特殊性。解决了开源Linux的移植、基础库移植、驱动的移植等问题,然后技术人员进行优化适配。核心应用支撑环境就是为了建立一个用户反响和技术人员优化的一个一体化平台。根据用户对应用的指标需求,结合操作系统开源基础软件的优化,解决用户使用的难题。
 
?