大数据平台解决方案范文

2023-03-23

大数据平台解决方案范文第1篇

1.软件选型建议 1.1 数据传输

处理并发链接的传统方式为：为每个链接创建一个线程并由该线程负责所有的数据处理业务逻辑。这种方式的好处在于代码简单明了，逻辑清晰。而由于操作系统的限制，每台服务器可以处理的线程数是有限的，因为线程对CPU的处理器的竞争将使系统整体性能下降。随着线程数变大，系统处理延时逐渐变大。此外，当某链接中没有数据传输时，线程不会被释放，浪费系统资源。为解决上述问题，可使用基于NIO的技术。 1.1.1 Netty

Netty是当下最为流行的Java NIO框架。 Netty框架中使用了两组线程：selectors与workers。其中Selectors专门负责client端(列车车载设备)链接的建立并轮询监听哪个链接有数据传输的请求。针对某链接的数据传输请求，相关selector会任意挑选一个闲置的worker线程处理该请求。处理结束后，worker自动将状态置回‘空闲’以便再次被调用。两组线程的最大线程数均需根据服务器CPU处理器核数进行配置。另外，netty内置了大量worker功能可以协助程序员轻松解决TCP粘包，二进制转消息等复杂问题。 1.1.2 IBM MessageSight

MessageSight是IBM的一款软硬一体的商业产品。其极限处理能力可达百万client并发，每秒可进行千万次消息处理。

1.2 数据预处理 1.2.1 流式数据处理

对于流式数据的处理不能用传统的方式先持久化存储再读取分析，因为大量的磁盘IO操作将使数据处理时效性大打折扣。流式数据处理工具的基本原理为将数据切割成定长的窗口并对窗口内的数据在内存中快速完成处理。值得注意的是，数据分析的结论也可以被应用于流式数据处理的过程中，即可完成模式预判等功能还可以对数据分析的结论进行验证。 1.2.1.1 Storm

Storm是被应用最为广泛的开源产品中，其允许用户自定义数据处理的工作流(Storm术语为Topology)，并部署在Hadoop集群之上使之具备批量、交互式以及实时数据处理的能力。用户可使用任意变成语言定义工作流。

1.2.1.2 IBM Streams

IBM的Streams产品是目前市面上性能最可靠的流式数据处理工具。不同于其他基于Java的开源项目，Streams是用C++开发的，性能也远远高于其他流式数据处理的工具。另外IBM还提供了各种数据处理算法插件，包括：曲线拟合、傅立叶变换、GPS距离等。 1.2.2 数据推送

为了实现推送技术，传统的技术是采用‘请求-响应式’轮询策略。轮询是在特定的的时间间隔(如每1秒)，由浏览器对服务器发出请求，然后由服务器返回最新的数据给客户端的浏览器。这种传统的模式带来很明显的缺点，即浏览器需要不断的向服务器发出请求，然而HTTP request 的header是非常长的，里面包含的数据可能只是一个很小的值，这样会占用很多的带宽和服务器资源。

面对这种状况，HTML5定义了WebSockets协议，能更好的节省服务器资源和带宽并达到实时通讯。应用Websockets技术，服务器可以通过一个双工通道主动推送数据至客户端浏览器。 1.3 数据存储 1.3.1 车载终端数据

自2006年以来，基于Google提出的MapReduce编程模型以及分布式文件系统的开源项目Hadoop，得到了分布式计算领域的广泛关注，近年来更是几乎成为了大数据行业的标准框架。众多国际互联网公司如Yahoo!、Twitter、Facebook、Google、阿里巴巴等均开源发布了大量基于Hadoop框架的软件，从而使得此框架拥有其他大数据工具所不具备的软件生态圈。

2013年底，Hadoop 2 发布，新一代的计算框架YARN在兼容MapReduce之外，使得其他第三方计算工具可以更便捷的与HDFS整合。同时HDFS也增加了HA(高可用)等新功能。

Cloudera是一家美国的Hadoop软件发行商，其CDH提供了企业级的服务支持，超过50%的Hadoop开源项目贡献来自于Cloudera的工程师。恒润科技目前使用的是Cloudera的CDH5。

数据存入HDFS中时，Hadoop会自动将数据切分为block并均匀分布的存储在集群的各个数据节点。读取数据时，往往通过Map Reduce的方式将数据汇总并提取。这种方式非常适用于对海量数据(eg. 100GB+)进行检索或分析的场景。这是因为，首先海量数据很难用单机进行处理，因为大量数据需要先加载至内存;其次因为MapReduce(或基于YARN的其他计算方式)可以充分利用整个集群中的计算资源，任务的执行效率远远快于单机。

而对于交互应答及时性要求较高的应用场景，比如查看某列车某一时段的车速变化曲线(涉及数据量相对较小)。用户往往期望指定检索条件后可得到秒级的响应。但如果采用上述方式直接从HDFS取数据，整体集群任务派发与资源协调所需的时间将远大于数据处理与展示的时间。用户体验将会大幅下降，这种情况下一般会采用非结构型Nosql数据库。HBase是Hadoop生态圈中非结构型数据库的代表，其架构参考了Google的bigTable设计。旨在为客户提供基于HDFS，支持快速写入与读取的数据库。

HBase的一个典型应用场景便是车载终端数据存储，车载终端数据的特点包括：数据类型多样、数据具有时序性、车载终端有移动性以及数据粒度小。车载数据也符合上述特征，因此HBase相对于HDFS是一个更加合适的选择。然而，HBase表的设计对数据检索效率的影响可谓巨大，因此必须紧密结合应用场景、数据结构以及数据的元数据才能确保HBase的性能满足应用需求。 1.3.2 应用数据

应用数据一般则采用关系型数据库进行存储。常见的关系型数据库包括：Mysql，SqlServer，Oracle等。 1.4 数据分析 1.4.1 基础运算功能

大数据平台需根据数据类型的相应特点封装基础运算功能。例如，对于布尔量，需提供某段时间区间内，0、1变化的次数统计，0、1所占比例分布等功能;对递增量如列车里程，应提供某段时间区间内该信号的变化率。而这些功能在分布式环境下主要是通过MapReduce的思想实现。

MapReduce是Hadoop的核心组件之一。所有计算任务都被分解为两个过程：Map与Reduce。其中Map过程的核心思想为‘移动计算优于移动数据’，即将计算任务Mapper分发至数据所在计算节点。计算节点对本地数据进行计算并将计算结果记录在本地HDFS。Reduce过程，则由reducer去各个计算节点收集mapper的中间计算结果再整理成最终结果。这一过程适合的场景是大批量数据运算，而针对交互性较强的应用，因整个计算过程涉及大量磁盘IO操作，很难做到及时响应。为此Hadoop软件生态圈对MapReduce过程进行了大量优化，而Spark的出现则进一步颠覆了MapReduce的实现方式。 1.4.2 Apache Spark

Spark将数据源封装为RDD(一种可伸缩的分布式数据结构)。针对RDD的Mapreduce过程，将所有中间结果都保存在内存，而不需读写HDFS，从而提高计算任务的整体效率。除MapReduce外，Spark还提供许多其他数据操作。自2014年起，spark已经成为Apache开源社区中最活跃的开源项目。 1.4.3 SQL on Hadoop

在传统关系型数据库中进行数据分析往往是依靠SQL语言。对于不熟悉分布式编程的数据分析人员，SQL on Hadoop的出现无疑为他们提供了一种便捷而强大数据分析工具。为Hbase提供SQL操作的工具包括Hive，Impala与Pheonix。其中Hive与Impala都是为HDFS而设计同时提供了对Hbase的接口;Pheonix则是专门为Hbase设计的，底层实现完全依赖Hbase 的原生接口。 1.4.4 机器学习算法

数据挖掘中常用的许多机器学习算法都是迭代式的，当数据分布在集群中，传统的单机算法实现将难以生效。Apache Mahout提供了多种机器学习算法基于MapReduce的实现，包括聚类、拟合、协同过滤等。Spark也提供了Mlib组件并以Spark的方式对上述算法进行了实现。 1.4.5 BI

传统的的BI工具近年来也开始提供基于Hadoop的数据计算接口，如Matlab提供了MapReduce的接口(http:///discovery/matlab-mapreduce-hadoop.html)。而SPSS更是宣布除与Hadoop集成之外，还将于2015年完成与Spark的集成。值得注意的是，这些集成仅是底层实现的集成，即仍然要求数据分析人员具备MapReduce的编程思想并学习这些工具关于Mapreduce的客户端接口。 1.4.6 工作流

Oozie是Hadoop生态圈中第一款关于计算流程规划的工具。通过这款工具，开发人员可以将上述数据分析工具进行整合，以完成非常复杂的数据统计任务。然而Oozie缺乏可视化的工具对工作流进行设计，且调试十分不便。

Azkaban是由LinkedIn贡献的一款类似的开源工具并提供了用户友好的可视化界面。

1.4.7 数据可视化

由于前段的框架采用的是基于浏览器的B/S架构，因此数据的可视化可以依托于大量开源的javascript工具库,例如D3(https://github.com/mbostock/d3/wiki/Gallery)、Highcharts(http:///demo)以及Baidu Echarts(http://echarts.baidu.com/doc/example.html)。

以Echarts为例，其提供的工具包括：折线(面积)图、柱状(条形)图、散点(气泡)图、 K线图、饼(圆环)图、雷达(面积)图、和弦图、力导向布局图、地图、仪表盘、漏斗图。具体demo请参考上述链接。 2 硬件选型建议 2.1 服务器选型 2.1.1 配置

Hadoop集群中DateNode的推荐配置为： • 12～24 块1～4TB 硬盘

• 2 ～8核 CPU, 频率2～2.5GHz • 64-512GB 内存 • 10～100G以太网网口 NameNode的推荐配置为：

• 4～6 块1TB 硬盘 (操作系统1块, 文件系统2块,Zookeeper1块) • 2 ～8核 CPU, 频率2～2.5GHz • 64-128GB 内存 • 10～100G以太网网口 2.1.2 规模

车载终端数据进入Hbase后，以Hfile的形式存于HDFS。这意味着所有数据在整体集群中将会至少保存3个备份。规划集群规模时需考虑下列几个参数： •

车载终端数量(车载数据采集设备)sensors •

采集端口数量ports •

采集频率 frequency •

采集时间period •

端口大小 size •

备份数量 redundancy

大数据平台解决方案范文第2篇

环境数据中心

大数据平台分析

Big data platform analysis

SOFTWARE PRODUCT

聚光科技(杭州)股份有限公司

内部资料注意保密

1. 大数据背景............................................................................................................... 1

1.1. 什么是大数据................................................................................................ 1 1.2. 发展现状........................................................................................................ 1 1.3. 大数据的应用................................................................................................ 2 2. 大数据平台介绍....................................................................................................... 4

2.1. 定位................................................................................................................ 4

2.1.1. 产品概述............................................................................................ 4 2.2. 功能................................................................................................................ 4 2.3. 设计................................................................................................................ 4 2.4. 技术.............................................................................. 错误!未定义书签。 2.5. 总结................................................................................................................ 4 3. 环境数据中心........................................................................................................... 5

3.1. 背景定位........................................................................................................ 5 3.2. 功能................................................................................................................ 5

3.2.1............................................................................................................... 5 3.2.2............................................................................. 错误!未定义书签。 3.3. 设计................................................................................................................ 6 3.4. 技术.............................................................................. 错误!未定义书签。 4. 总结........................................................................................................................... 6

内部资料注意保密

1.大数据背景

1.1. 什么是大数据

大数据最早在上世纪90年代被提出，是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

现在，业界普遍认同所谓“大数据”具有明显的“3V特征”：量级(Volume)，速度(Velocity)和多样性(Variety)。大数据普遍具有量级大，要求处理速度快，数据本身具有丰富的多样性。在甲骨文公司和中国移动研究院的相关研究文档里，都追加了第四个V——Value，价值;而IBM在其相关文档中给出的第四个“V”则是真实性(Veracity)。

大数据的价值：在海量的规则或不规则数据之中，用新的数据处理手段，以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。

1.2. 发展现状

随着移动互联网的带宽的增加和智能设备销售量的上升，互联网业迎来了“云计算”和“大数据”。世界经济论坛一份有关大数据的研究报告称，每天全球几十亿人使用计算机、GPS设备、电话和医疗设备，产生海量的数据信息。这些用户大部分来自发展中国家，他们的需求和习惯尚未被真正理解，如果能够借助大数据相关技术分析和挖掘数据背后的信息，将有助于认识需求、提供预测和防范危机。

大数据的真正意义并不在于大带宽和大存储，而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法，生物制药、新材料研制生产的流程会发生革命性的变化，可以通过数据处理能力极高的计算机并行处理，同时进行大批量的仿真比较和筛选，大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料，未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向，云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。

- 1

内部资料注意保密

项目使得卫生单位及早研制预防疫苗，及早控制疫情的扩散，大幅降低了流感的传播。

3、飞机票价高低和多早预购的关系

也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系，并建立了数学模型。现在我们任何人可以上到他的网站：farecast.com，输入你的出发地和目的地，加上你要出发的时间，马上这个网页能告诉你是现在就赶快买票还是再等几天才买。

- 3

内部资料注意保密

3.环境数据中心

3.1. 背景定位

环境管理部门每天要面对大量的数据，如环境监测数据、排污收费数据、排污申报数据、环境统计数据、环保信访数据、行政处罚数据、总量减排数据等。这些数据，往往存在来源复杂、格式多样、不一致、不准确、不完整、存放分散等问题，给环境管理带来诸多困难。各业务系统也彼此独立，从而形成了一个个信息孤岛，数据难以共享，环境决策缺乏有效的数据支持，难以做到科学决策。因此，需要建立统一的环境数据中心，全面整合各类环境资源数据，实现数据的集中管理。使之成为环保各业务科室之间协同工作的数据中心，成为多媒体、文档资料和政策法规的存储中心，成为环保决策所需的数据仓库中心。

3.2. 功能

3.2.1. 数据的管理

数据中心的数据来源主要于：

1. 国家下发的软件系统，如污染源普查软件、环境统计软件; 2.已有的业务系统，如排污申报与收费管理系统、12369环保热线等。 3.Excel表格、电子文档、图片、视频、扫描件等;

4.数据直报系统：系统提供定制的录入界面，用户手工填报。

对于这些来源复杂、格式多样、不一致、不准确、不完整、存放分散的数据进行统一的标准建立，实现信息共享，数据交互

3.2.2.数据的管理

1.文件的上传、修改、删除 2.元数据的编辑

大数据平台解决方案范文第3篇

环境数据中心

大数据平台分析

Big data platform analysis

SOFTWARE PRODUCT

聚光科技(杭州)股份有限公司

内部资料注意保密

1. 大数据背景............................................................................................................... 1

2.1. 定位................................................................................................................ 4

内部资料注意保密

1.大数据背景

1.1. 什么是大数据

大数据最早在上世纪90年代被提出，是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据的价值：在海量的规则或不规则数据之中，用新的数据处理手段，以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。

1.2. 发展现状

- 1

内部资料注意保密

项目使得卫生单位及早研制预防疫苗，及早控制疫情的扩散，大幅降低了流感的传播。

3、飞机票价高低和多早预购的关系

- 3

内部资料注意保密

3.环境数据中心

3.1. 背景定位

3.2. 功能

3.2.1. 数据的管理

数据中心的数据来源主要于：

4.数据直报系统：系统提供定制的录入界面，用户手工填报。

对于这些来源复杂、格式多样、不一致、不准确、不完整、存放分散的数据进行统一的标准建立，实现信息共享，数据交互

3.2.2.数据的管理

1.文件的上传、修改、删除 2.元数据的编辑

大数据平台解决方案范文第4篇

党的十八大把生态文明建设放在了突出地位，纳入了“五位一体”总体布局，并首次把“美丽中国”作为未来生态文明建设的宏伟目标。2015年新修订的《环境保护法》将“推进生态文明建设、促进经济社会可持续发展”列入立法，以法律的形式将生态文明建设提升到了国家的战略高度。国务院出台的《水污染防治行动计划》“水十条”，对生态文明中水环境和水质保护方面的提出了重点管理要求。与此同时“互联网+”和“大数据”应用也上升为国家战略，国务院出台的《关于积极推进“互联网+”行动的指导意见》、《关于促进大数据发展的行动计划》和环保部发布的《生态环境大数据建设总体方案》，将“互联网+绿色生态”作为11个重点行动之一而提出，要求未来的环保工作必须紧密地与大数据建设结合起来，高度重视大数据在推进生态文明建设中的地位和作用。

2 建设目标

以往信息化发展基本都是着眼于各个业务部门各自的业务需求，“管什么、想什么、干什么”，数据多头采集、相互矛盾的现象普遍，难以从环保工作全局层面支撑决策和管理。很多环境问题还处于现状不清、底数不明、原因不详的困局之中，环保部门在回应重大环境污染事件和解决人民关切的环境问题方面容易陷入被动。

通过以水环境综合大数据分析建设为契机，树立环保工作的大局观和整体观，将流域各方面相关环境管理数据整合起来，形成合力打造对内的统一的水质大数据智能分析平台，用全局性的战略眼光来谋划整个水域环境质量、影响流域污染源监控数据管理建设。 3 系统建设内容

3.1 水环境大数据采集

大数据时代的环境信息化建设是以数据为核心，环境大数据管理与应用是在“十三五”期间最重要的发展方向，所以环保部门未来建设重点将紧紧围绕大数据进行。而要实现大数据的智能化应用，首先要解决的就是大数据收集获取问题，因此需要夯实应用基础，全面收集内外部数据资源，整合、共享、联动、开发数据，努力实现全数据采集管理。

3.2 水环境大数据管理

获取流域水质大数据分析需要的相关环境大数据资源后，建立大数据综合服务库，将采集的海量数据汇聚进入到库中，聚合原有分散在各个政务系统中的数据，并按照大数据管理标准及要求，进行集中管理与维护。

3.3 水环境大数据分析应用

大数据平台解决方案范文第5篇

为了提高资源使用率，节约管理成本，推动信息产业发展，拉动社会资金在信息化方面的投入，为了提高行政管理和服务效率，促进公司职能转变，改善投资和营商环境，促进经济发展，为了提高公司服务效率，使公司管理服务从各自为政、相互封闭的运作方式，向跨部门、跨区域协同互动和资源共享转变，提高公司工作效率。有必要构建统一的大数据平台，更好地为公司决策服务，提高信息服务质量。

建成覆盖全县各公司部门的信息资源整合平台，支撑用户单位开展跨部门、跨层级的政务应用大数据分析，业务协作，提供应用集成模板、集中监控管理、远程配置部署等工具，降低跨地域实施难度。电子政务应用中存在大量跨部门、跨层级的业务协作，数据交换平台是县级各部门共享数据，进行全县内大数据分析的基础也是解决跨部门协作的有效手段。全县统一规划、统一规范、统一架构，避免各级单位独立建设带来的格式各异、接口混乱、无法重用、难以扩展的局面;施行统一部署、统一监控、统一管理的集中管理模式，总体上降低各级公司部门信息整合的建设、管理、应用的成本。社会经历了由磁盘、磁带、光盘存储数据，向以公文档为主要形式数据的发展，后来互联网的兴起促成了数据量的第三次大规模增长，到了今天，随着互联网、物联网、云计算应用的进一步丰富，数据已呈指数级增长，“大数据”概念逐渐在各界引起热议。在大数据时代，我们分析的数据因为“大”，摆脱了对传统对随机采样的依赖，而是面对全体数据;因为所有信息都是“数”，可以不再纠结具体数据的精确度，而是坦然面对信息的混杂;信息之“大”之“杂”，让我们分析“据”也由传统的因果关系变为相关关系。

大数据平台由网络基础设施层、数据支撑层、信息安全层、统一管理等构成。数据支撑层必须能够对数据采集、数据质量、数据安全、数据挖掘、数据处理和数据可视化进行大数据的全生命周期管理。通过对全县范围内从不同部门收集到数据运转起来成为流化的资源，为应用支撑层的运转提供丰富的高质量的不同维度的数据资源的接口。在全县数据集中的同时需要考虑数据在传输和存储时的安全问题以及不同部门对外共享自身内部数据时数据边界控制的问题，从技术和制度上保障这些数据资源得到科学、有效、合规的使用。

大数据平台建设的主要任务：

(一)建立政务云平台。

建设全县统一的政务云计算平台。以县广电公司的设施为基础，进行云化改造，建立自行管理的云计算资源池，为各部门不宜采用社会化云计算服务的关键性业务系统提供基础设施共享服务。

(二)实施大数据管理。

1.建立政务数据交换和目录体系。以县广电公司的交换中心为主交换平台，构建全县统一的电子政务数据交换体系。统筹各部门可供共享的信息和共享需求，编制政务信息资源共享目录，明确可供共享的信息名称、数据格式、提供方式、提供单位、共享条件、更新方式、更新时限等要素，按需向其他部门提供信息共享服务。

2.建设政务数据集中共享平台。建立健全共享数据汇聚机制，按照“一类数据来源于一个权威部门，权威部门负责更新维护”原则，通过统一数据交换平台，将具有公共性、标识性、基准性的共享数据进行汇聚，集中存储于云平台，逐步形成人口、法人、经济、空间地理、社会信用等各类城市重要基础性数据库。充分发挥云平台共享数据的中心作用，建立向云平台直接获取为主，部门间数据交换获取为辅的共享应用机制，提高城市综合数据共享使用效率。

(三)推进大数据应用。

提高决策数据服务水平。围绕县公司决策需要，以建设决策支持电子政务系统为抓手，充分整合各部门现有办公应用和业务系统数据资源，逐步建立支撑领导决策研判的决策数据资源库，提供更加及时高效的信息获取方式，丰富展现形式，为公司决策提供全面准确便捷的数据服务。使县领导能够及时掌握经济运行与社会发展的实际状况和发展趋势，不断提升政务数据保障和辅助决策能力。

(四)构建大安全体系。

1.加强统一电子政务网络建设管理。在现有电子政务外网平台基础上，提升县级骨干网络业务承载能力，按需扩充统一互联网出口，为公司大数据平台提供高速、稳定、安全的网络运行环境。

上一篇：纺织业行业调查报告下一篇：天然气市场调查报告

大数据平台解决方案范文

大数据平台解决方案范文第1篇

大数据平台解决方案范文第2篇

大数据平台解决方案范文第3篇

大数据平台解决方案范文第4篇

大数据平台解决方案范文第5篇

热门文章

精品范文

全站热搜