博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
什么是大数据系统架
阅读量:6101 次
发布时间:2019-06-20

本文共 1199 字,大约阅读时间需要 3 分钟。

hot3.png

大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。

大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;

与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。

142038_m7Bo_3793864.png

数据源的特点决定数据采集与数据存储的技术选型,我根据数据源的特点将其分为四大类:

第一类:从来源来看分为内部数据和外部数据;

第二类:从结构来看分为非结构化数据和结构化数据;

第三类:从可变性来看分为不可变可添加数据和可修改删除数据;

第四类,从规模来看分为大量数据和小量数据。

大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集、数据存储,之后才是数据分析和数据处理。

从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。

大快大数据平台(DKH),是大快公司为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级,大数据通用计算平台。传统公司通过使用DKH,可以轻松的跨越大数据的技术鸿沟,实现搜索引擎级的大数据平台性能。

DKH,有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。

DKH,更是通过大快独有的中间件技术,将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

DKH,虽然进行了高度的整合,但是仍然保持了开源系统的全部优点,并与开源系统100%兼容,基于开源平台开发的大数据应用,无需经过任何改动,即可在DKH上高效运行,并且性能会有最高5倍的提升。

DKH,更是集成了大快的大数据一体化开发框架(FreeRCH), FreeRCH开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的二十多个类,通过总计一百余种方法,实现了10倍以上的开发效率的提升。

DKH的SQL版本,还提供了分布式MySQL的集成,传统的信息系统,可无缝的实现面向大数据和分布式的跨越。

DKH标准平台技术构架图

142744_NtCO_3793864.png

转载于:https://my.oschina.net/u/3793864/blog/1635829

你可能感兴趣的文章
洛谷——P1596 [USACO10OCT]湖计数Lake Counting
查看>>
智力大冲浪
查看>>
JSONP实现跨域
查看>>
Python基础班---第一部分(基础)---Python基础知识---计算机组成原理
查看>>
虚拟机VMware 9安装苹果MAC OSX 10.8图文教程
查看>>
POJ3694 Network
查看>>
微信小程序开发-框架
查看>>
redo、undo、binlog的区别
查看>>
DropDownList 控制日期控件显示格式
查看>>
RecycleView设置顶部分割线(记录一个坑)
查看>>
【设计模式系列】单例模式的7种写法
查看>>
汉字转拼音 (转)
查看>>
Machine Learning Techniques -6-Support Vector Regression
查看>>
会计基础_001
查看>>
Cordova 开发环境搭建及创建第一个app
查看>>
ajax请求拿到多条数据拼接显示在页面中
查看>>
小程序: 查看正在写的页面
查看>>
dedecms生成文档数据库崩溃 mysql daemon failed to start
查看>>
Linux的50个基本命令
查看>>
Objective-C中创建单例方法的步骤
查看>>